Dictionnaire historique de la langue française

LES LANGUES INDOEUROPÉENNES

Nom conventionnel d'une famille de langues, à laquelle se rattachent entre autres les langues romanes, et donc le français, ainsi que de nombreuses langues d'Asie et les langues parlées aujourd'hui en Europe, à l'exception des langues du groupe finno-ougrien (hongrois, finnois, estonien, etc.), du basque (sans rattachement démontré à un groupe de langues), et du turc (appartenant au groupe altaïque). À partir de 1000 avant J.-C. environ les langues indoeuropéennes étaient déjà parlées par la majorité des habitants de l'Europe, par une partie des habitants de l'Asie occidentale (Caucase, plateau iranien) et de l'Asie méridionale (sous-continent indien) ; depuis le milieu du XVe s. de notre ère, elles ont touché la plupart des zones du monde habité. À côté du terme français indoeuropéen (anglais Indo-European, et termes équivalents dans de nombreuses langues), le terme allemand indogermanisch est inexact, en ce qu'il semble privilégier la branche germanique, parmi les langues européennes ; en fait, les linguistes allemands conservent cette dénomination depuis la première moitié du XIXe s., mais en lui donnant la même valeur conventionnelle que le terme « indoeuropéen ». Les termes français et allemand sont simplement deux façons de résumer en un seul mot composé l'extension maximale de cette famille de langues. Cependant, depuis l'Islande et l'Irlande à l'ouest, jusqu'à l'Inde à l'est, et depuis la Scandinavie au nord, jusqu'à la Grèce au sud, toutes les langues ne sont pas indoeuropéennes. En revanche, à une époque plus ancienne, on connaît au moins une branche dialectale du groupe (le tokharien) attestée dans une région plus orientale que l'Inde. La notion de proto-langue, dont sont issues toute une série de langues apparentées, repose d'abord sur l'observation d'un fait : certaines langues de cet ensemble présentent entre elles des ressemblances si précises et si nombreuses qu'elles ne peuvent s'expliquer ni par l'emprunt (en raison de l'éloignement géographique) ni par des tendances universelles (constatées dans des secteurs très limités du lexique : mots imitatifs, enfantins), ou encore par le seul hasard. L'hypothèse consiste à admettre que ces langues ont une origine commune, dont elles ont divergé par différenciation dialectale. Cette langue non attestée est appelée « indoeuropéen » ou, de façon plus exacte, « proto-indoeuropéen » ou « indoeuropéen commun ». La reconstruction des traits de cette langue repose d'abord sur la comparaison systématique des langues attestées, groupées en grandes branches dialectales, que l'on va présenter ici.

1. Anatolien, dont le représentant principal est le hittite, attesté par de nombreux documents (historiques, juridiques, religieux, littéraires) en écriture cunéiforme, depuis le XVIIe s. avant J.-C. jusqu'à 1200 environ avant J.-C. Ces écrits montrent une évolution sensible de la langue, idiome officiel d'un empire dont la capitale était au centre de la Turquie actuelle. Les deux autres langues anciennes sont le palaïte, connu par des fragments de l'époque hittite archaïque, et le louvite, connu par des textes des XVe et XIVe s. (époque néo-hittite), et par des mots empruntés en hittite ; des textes louvites gravés en écriture hiéroglyphique sont attestés sur une vaste zone en Asie Mineure et au nord de la Syrie, depuis 1500 au moins juqu'à la fin du VIIIe s. avant J.-C. ; les langues anatoliennes du premier millénaire, écrites dans des alphabets de type grec, sont le lycien, proche de l'ensemble louvite, attesté par des inscriptions et des légendes monétaires au sud-ouest de l'Anatolie, datables des Ve et IVe s. ; et le lydien, connu par des inscriptions de la ville de Sardes, principalement du IVe s., mais pouvant remonter en partie au VIe s., et représentant une autre variété dialectale du groupe anatolien.

2. Indo-iranien : ce groupe comprend principalement deux branches, l'indo-aryen (indien) et l'iranien. En plus des connexions nombreuses des systèmes linguistiques à date ancienne, l'unité indo-iranienne est prouvée par l'usage du même terme par les Indiens et les Iraniens pour se désigner comme peuple : ārya, dont le sens premier est peut-être tout simplement « homme ». Le lieu de la communauté indo-iranienne était probablement au nord de l'Afghanistan actuel, dans le « Turkestan » de l'ex-empire soviétique, où des langues iraniennes sont encore parlées.

Les documents les plus anciens et les mieux conservés se trouvent du côté indo-aryen : en Inde, les textes sacrés de l'hindouisme, les Vedas, sont rédigés dans une langue littéraire, un mélange dialectal dont la variété dominante est un dialecte du Nord-Ouest (Penjab) ; dans l'abondante littérature védique, dont la composition s'est poursuivie jusqu'au VIe s. avant J.-C. environ, l'ouvrage le plus important pour la grammaire comparée est le recueil d'un millier d'hymnes, composé sur une longue période (1400-1000 av. J.-C., selon l'estimation habituelle). Au Ve s. av. J.-C. à la fin de la période védique, et à la suite de nombreux travaux de grammairiens, l'indo-aryen ancien fut décrit et codifié sous la forme appelée plus tard sanskrit. L'évolution des langues vernaculaires (prâkrits) apparaît de façon indirecte dans les textes védiques ; elles sont connues grâce aux réformes religieuses (bouddhisme et jaïnisme) qui ont utilisé pour leur prédication, à partir de 500 environ avant notre ère, les idiomes contemporains, et non la langue sacrée de l'hindouisme. Mais les textes datables les plus anciens en moyen-indo-aryen (ou moyen-indien) sont les inscriptions copiées sous l'empereur Asóka (mil. IIIe s. av. J.-C.), et rédigées dans les divers prâkrits de son empire. Plus tard, les prâkrits nous sont accessibles surtout à travers des formes conventionnelles et littérarisées ; le plus archaïque est le pâli, langue du canon bouddhique méridional. Le moyen-indien est le continuateur du védique, et il s'achève dans le stade appelé apabhraṃsá « dégradation », au milieu du premier millénaire de notre ère ; à partir du second millénaire, se forment les langues modernes (néo-indo-aryen), qui s'étendent sur la plus grande partie du sous-continent indien, à l'exception notable du Sud, occupé par les langues dravidiennes, étrangères à l'ensemble indoeuropéen. Les premiers témoignages sur l'indo-aryen ancien sont extérieurs à l'Inde : ils apparaissent au Proche-Orient, et consistent surtout en théonymes, anthroponymes (noms de dieux et d'hommes) et expressions techniques employés, aux alentours du XIVe s. avant J.-C., par l'aristocratie du royaume hourrite du Mitanni (au nord de la Syrie et de l'Irak actuels), et connus dans les régions voisines. Enfin, le tsigane appartient aussi au groupe indo-aryen (→ tsigane).

Du côté iranien, au stade ancien, l'avestique est le représentant de l'iranien oriental : c'est la langue de l'Avesta, texte sacré de la religion mazdéenne, corpus de compositions d'époques diverses. Les textes en vieil-avestique (notamment les Gâthâs) peuvent remonter à 1000 avant J.-C. environ ; on suppose plusieurs siècles d'écart avec ceux qui sont rédigés en avestique récent. L'avestique n'est continué par aucun dialecte iranien ultérieur. — La branche occidentale est représentée d'abord par le vieux-perse, qui est attesté par les inscriptions des rois achéménides, datées avec précision du VIe au IVe s. avant J.-C. ; la langue officielle de l'empire perse contient des éléments de la langue des Mèdes, situés plus au nord. Les langues des Scythes et des Sarmates (peuplades nomadisant de l'Oural au Danube, en passant par l'Ukraine) sont documentées surtout par les témoignages de voyageurs de l'Antiquité et par les noms propres enregistrés sur des inscriptions grecques au nord de la mer Noire. Au stade moyen-iranien, plusieurs langues sont intéressantes pour la reconstruction de l'iranien commun : pour l'iranien occidental, le moyen-perse (pehlevi) et le parthe, et, pour l'iranien oriental, le chorasmien, le sogdien, le saka, et le bactrien ; ces langues-ci sont documentées en Asie centrale au cours du premier millénaire de notre ère. Les langues iraniennes modernes (persan, tadjik, pashto, baloutchi, ossète, kurde, etc.) ne présentent pas souvent une continuité directe avec le stade moyen-iranien. — Une troisième branche de l'indo-iranien est connue seulement par des témoignages modernes : les langues dites nuristani (ou « kafires ») parlées au nord-est de l'Afghanistan et dans la zone frontalière du Pakistan : kati, prasun, ashkun, waigali. Cette branche, qui a conservé ses propres archaïsmes, a dû se séparer de l'indo-aryen et de l'iranien à une date très ancienne.

3. Grec. Voir l'encadré. Cette langue est sans doute en usage en Grèce depuis le début du second millénaire, connue à l'époque ancienne par plusieurs dialectes, dont la plupart ne sont attestés que par des inscriptions. Au deuxième millénaire, on ne connaît qu'un seul dialecte, le mycénien, noté dans un syllabaire malcommode (1400-1200 av. J.-C.), langue administrative avec des différenciations locales ; il n'est continué par aucun dialecte ultérieur. Au premier millénaire, on distingue les groupes dialectaux suivants : ionien-attique, arcado-chypriote, éolien, grec occidental (dorien) et pamphylien (ce dernier pouvant représenter un mixte dialectal) ; à l'exception du chypriote, qui utilise un syllabaire, ces dialectes utilisent l'alphabet importé et répandu depuis 700 avant J.-C. environ. Le VIIIe s. voit aussi la fixation des épopées homériques, qui emploient une langue conventionnelle à base d'ionien avec d'autres apports dialectaux : c'est une source d'une richesse considérable, à l'égal du Veda dans le domaine indien. Certains dialectes ont fourni des langues spéciales de genres littéraires, mais la langue dominante de la culture est l'attique classique. Les rapports de ces dialectes entre eux et avec le mycénien sont toujours discutés : on isole généralement un ensemble méridional présentant des innovations communes, qui comprend le mycénien, l'ionien-attique et l'arcado-chypriote ; l'éolien et le dorien appartiendraient à un ensemble septentrional, plus fortement différencié. On reconstruit donc un grec commun, à partir des divers dialectes. À partir du IVe s. avant J.-C., l'attique, avec quelques simplifications (élimination de traits spécifiques), s'est imposé comme langue commune (koinè), de tout le monde grec ; les autres dialectes ont disparu progressivement, à l'exception du dialecte ancien (dorien) de la Laconie, appelé aujourd'hui tsakonien.

4. Italique. La langue la mieux connue de ce groupe est le latin, en fait la langue de Rome qui a dominé les autres dialectes du Latium (→ latin) ; les inscriptions romaines les plus anciennes remontent au VIIe s. avant J.-C., mais la documentation épigraphique et littéraire ne devient abondante qu'à partir du IIIe s. ; la période du latin archaïque, attestée aussi par quelques formules juridiques et rituelles, va jusqu'au IIe s. ; au-delà, s'instaure le latin classique. Le dialecte italique le plus proche du latin est le falisque, attesté par des inscriptions se répartissant depuis 600 jusqu'au IIe s. avant J.-C. ; on isole donc un sous-groupe latino-falisque. L'autre sous-groupe est l'osco-ombrien : avant l'expansion du latin, les parlers osques étaient les plus usités au milieu et au sud de la péninsule, et leur noyau était le Samnium ; les inscriptions, assez variées, s'étalent de 300 à 80 avant J.-C. environ. L'ombrien est documenté, en dehors de quelques brèves inscriptions, par le texte rituel gravé sur les sept tables de bronze retrouvées à Gubbio (Iguvium), dont les plus anciennes ne remontent pas avant le IIIe s. avant J.-C., et dont les plus récentes sont du Ier s. ; il représente un stade plus avancé d'évolution, par rapport à l'osque. Entre l'Ombrie (au nord-est) et le Samnium, plusieurs peuples parlaient des langues du même groupe, d'après les données clairsemées dont on dispose, la plupart de type osque : Péligniens, Vestiniens, Marrucins, Marses, Sabins, etc. ; la langue des Volsques semble plus proche de l'ombrien. La problématique de cet ensemble italique a été renouvelée en partie par les inscriptions plus anciennes (du VIe s. av. J.-C.) retrouvées dans le sud du Picenum (côte de l'Adriatique), qui attesteraient un stade antérieur de certains dialectes du groupe osco-ombrien ; le terme sabellien est employé dans cette perspective. Le latino-falisque et l'osco-ombrien présentent suffisamment d'innovations communes par rapport aux autres langues pour justifier leur place dans un italique commun.

5. Celtique : langue des peuples de la civilisation de Hallstatt, située en Europe centrale, dans la première moitié du premier millénaire avant J.-C., qui s'est étendue dans la seconde moitié vers l'ouest (France actuelle, Belgique, Espagne, îles Britanniques), vers le sud (nord de l'Italie), vers l'est le long du Danube (diverses régions de la péninsule balkanique), et jusqu'en Anatolie, dont le centre fut en partie occupé par les Galates. La documentation sur le celtique parlé (sans doute diversifié) dans cette aire très vaste pendant les derniers siècles avant et les premiers siècles après J.-C. est fort lacunaire. Le celtique continental est surtout connu par un nombre important de noms de personnes, de peuples et de lieux notés sur des inscriptions latines ou grecques, ou enregistrés par les auteurs anciens, à quoi s'ajoutent quelques mots d'emprunt en latin et en grec, quelques gloses et formules, et une centaine d'inscriptions et de légendes monétaires, retrouvées principalement en Gaule, au nord de l'Italie, et en Espagne (celtibère). Avec un nombre d'incertitudes, les inscriptions datables se répartissent pour la plupart entre 200 avant et 200 après J.-C., donc à une époque de contacts avec la civilisation romaine, qui entraînent assez rapidement la disparition du gaulois et du celtique continental au profit de la langue de Rome (→ celtique, gaulois). Nos connaissances du celtique reposent essentiellement sur le groupe insulaire, dont les langues se sont maintenues dans des régions non atteintes par la conquête romaine ou incomplètement romanisées. Ce celtique insulaire comprend deux branches bien documentées : 1. le gaélique (goidélique) en Irlande, qui fut amené par des colons au Ve s. en Écosse, et au cours du premier millénaire sur l'île de Man, et 2. le brittonique en Grande-Bretagne, dont une variété fut transportée par des émigrants au cours des Ve et VIe s., et au début du VIIe s. au nord-ouest de la Gaule, autrement dit en Bretagne (Armorique). Le gaélique est mieux connu et en général plus archaïque : l'irlandais primitif est documenté par les inscriptions Ogam (aux alentours de 400-600 apr. J.-C.) ; le vieil-irlandais (déjà considérablement évolué) est attesté surtout par des gloses et des commentaires sur des textes latins, depuis le VIIe jusqu'au milieu du Xe s. ; un matériel intéressant est conservé seulement par des manuscrits au stade moyen-irlandais (900-1200), voire plus tard : en particulier les textes juridiques, dont les manuscrits sont pour la plupart du XVe s. ou ultérieurs, contiennent une langue archaïque. Le brittonique présente trois variétés locales : le gallois au Pays de Galles (vieux-gallois de la fin du VIIIe au milieu du XIIe s.) ; le cornique en Cornouailles (vieux-cornique de la fin du IXe s. jusque vers 1100) ; le breton en Bretagne (vieux-breton depuis le IXe s. jusque vers 1100) ; → breton. Les premiers témoignages de ces langues consistent surtout en gloses de mots isolés de textes latins. En moyen-gallois, une littérature importante (poésie savante et archaïsante, comme en irlandais) s'est développée du XIIe au début du XVe s. ; en breton et en cornique, on ne trouve pas de textes littéraires avant le XVe s., et les plus anciens sont des mystères et des livres saints. Le cornique, pauvrement documenté, est éteint depuis le XVIIIe s. ; la survivance des autres langues celtiques est affectée sérieusement par les contacts avec l'anglais et, pour le breton, par le français, et dans les pays considérés, il ne reste plus qu'une minorité de locuteurs qui ne soient pas bilingues. — Une troisième variété du celtique insulaire, distincte des deux autres, aurait été parlée par les Pictes, au nord de l'Écosse, jusque dans le premier millénaire de notre ère ; sur ce territoire, des noms de personnes, de clans et de lieux d'origine celtique se sont transmis à l'époque médiévale, et au-delà. — La notion d'unité préhistorique « italo-celtique » est aujourd'hui abandonnée ; les connexions indéniables sont le plus souvent des archaïsmes, et les innovations divergentes sont considérables entre l'italique commun et le celtique commun.

6. Germanique. Voir l'encadré. Cette famille est divisée en trois branches. La branche orientale, éteinte, est représentée essentiellement par le gotique, connu par une traduction de la Bible datant du IVe s., des documents commerciaux rédigés en Italie au VIe s., et dont une variété était encore parlée au XVIe s. en Crimée (→ gotique). Auparavant, on a des témoignages du germanique par des noms propres et des gloses chez des auteurs anciens, depuis le début de notre ère, et, à partir de 200 environ, par des inscriptions runiques. — Les deux autres branches sont vivantes. Le groupe nordique est nettement distingué grâce à des inscriptions situées aux alentours de 600 ; après une période d'expansion territoriale, et la conversion au christianisme des royaumes scandinaves, les parlers nordiques (islandais, norvégien, suédois et danois) sont différenciés à l'époque de l'introduction de l'alphabet latin, au XIIe s. en Norvège et en Islande. La plus grande partie de la littérature originale est conservée par des manuscrits islandais, et le vieil-islandais est la forme usuellement citée du nordique ancien (jusqu'au XVe s.) ou vieux-norrois. — Pour le groupe occidental, l'épigraphie runique est beaucoup moins abondante, mais les documents en alphabet latin sont antérieurs : à partir de 700 environ pour le vieil-anglais (ou anglo-saxon), à partir de la fin du VIIIe s. pour le vieux (ou ancien) haut-allemand (ancêtre de l'allemand moderne), du milieu du IXe s. pour le vieux-saxon, à partir du XIIIe s. pour le vieux-frison, et du Xe s. pour le vieux-bas-allemand, avec l'ancien bas francique, langue des Francs (ancêtre du néerlandais, notamment) ; le vieil-anglais et le vieux-frison, ainsi que le vieux saxon, présentent nombre de particularités communes ; → allemand, anglais, francique, gotique → burgonde, longobard.

7. Arménien : les premiers textes remontent au début du Ve s. de notre ère, époque où fut créé un alphabet sur le modèle de l'alphabet grec, pour la copie de livres saints traduits du grec et du syriaque, et de quelques textes originaux (manuscrits datant du IXe s.) ; jusqu'au VIIIe s., la langue écrite (grabar), appelée « arménien classique », est remarquablement homogène, et on n'y distingue pas de variation dialectale. Une variété notable du grabar, au stade moyen-arménien, est la langue de chancellerie en usage aux XIIe et XIIIe s. dans le royaume de Cilicie. En arménien classique, le nombre de mots empruntés à l'iranien est impressionnant, du fait des contacts entre Arméniens et Iraniens, au moins depuis le VIe s. avant J.-C. ; l'arménien aurait été introduit en Transcaucasie, dans la région du lac de Van, par des envahisseurs venus du nord des Balkans, vers la fin du second millénaire avant notre ère. Des particularités importantes de phonétique, de morphologie, et surtout du lexique, dans sa partie héritée, indiquent une proximité ancienne de l'arménien et du grec.

8. Tokharien : groupe éteint, sans doute depuis le XIe s. de notre ère, formé de deux langues distinctes, appelées tokharien A et B, documentées par des manuscrits retrouvés dans des oasis au nord du bassin du Tarim, dans le Turkestan chinois, actuel Xinjiang ; certains documents (laissez-passer de caravanes, graffitis) sont datés du début du VIIe s. après J.-C., et les manuscrits les plus anciens peuvent remonter au Ve s. de notre ère, mais dans l'ensemble, ils ont été copiés entre les VIe et VIIIe siècles. Les textes sont dans leur grande majorité des traductions ou des adaptations d'ouvrages bouddhiques en sanskrit. Dans la partie occidentale de l'aire tokharienne, la région de Koutcha, on n'a trouvé que des documents en tokharien B, appelé aussi pour cette raison koutchéen.

9. Slave : à partir de leur zone originelle, située entre l'Oder et le Dniepr, les langues du groupe slave se sont répandues dans les Balkans, l'Europe centrale et orientale, et, avec l'expansion de l'empire russe, dans les parties septentrionales de l'Asie. Le groupe est divisé en trois branches. — Le slave méridional, avec deux sous-groupes : a) serbo-croate et slovène ; b) bulgare et macédonien. — Le slave occidental, avec trois sous-groupes : a) tchèque et slovaque ; b) sorabe, avec trois variétés, encore parlées en Lusace, à l'est de l'Allemagne ; c) polonais, et d'autres dialectes différents, kachoube, slovince, et polabe, ce dernier parlé jusqu'au XVIIIe s. sur le cours inférieur de l'Elbe. — Enfin, slave oriental, avec trois sous-groupes : biélorusse (blanc-russe), ukrainien (ou petit-russe, ou ruthène), et russe (ou grand-russe). Ces variétés appartenaient encore à la fin du VIIIe s. après J.-C. à une langue homogène, qui ne présentait que des différenciations dialectales limitées. Les premiers textes sont des traductions rédigées dans la seconde moitié du IXe s. par les moines Cyrille et Méthode et notées avec des caractères dérivés de l'alphabet grec, appelés cyrilliques, d'après leur inventeur : évangile, psautier, prières, etc. (manuscrits de la fin du Xe et du début du XIe s.) ; la langue de ces documents, dénommée vieux slave, est une langue d'Église (anglais, Old Church Slavonic ; allemand, Altkirchenslavisch), reposant sur un dialecte macédonien, semblable au type des parlers bulgares, relevant donc du type méridional, mais qui présente nombre de traits archaïques, proches de l'état du slave commun. — Les autres langues slaves sont connues plus tard, à un stade beaucoup plus avancé, et souvent sous une forme peu sincère, fortement influencée par la langue religieuse écrite adoptée par les peuples slaves qui appartiennent à l'Église d'Orient : le slavon ecclésiastique, un peu coloré par les langues locales. Le groupe slave se trouve géographiquement voisin du groupe baltique, et tous deux offrent des ressemblances importantes, qui peuvent être dues en partie à une situation de contact prolongé ; bien qu'il soit certain que les langues baltiques se rattachent au même groupe dialectal indoeuropéen que les langues slaves, il est préférable de poser deux développements parallèles, et il n'est pas possible de parler d'unité préhistorique « balto-slave » au même titre qu'on pose un groupe indo-iranien postérieur à l'indoeuropéen commun.

10. Baltique : groupe dont deux branches sont bien connues. La première est représentée par le vieux-prussien, éteint depuis la fin du XVIIe s., par suite de la germanisation de la Prusse ; les documents les plus anciens en vieux-prussien (et d'ailleurs en baltique) sont le vocabulaire d'Elbing (802 mots avec traduction allemande), compilé peut-être vers 1300 après J.-C., et conservé dans une copie faite un siècle plus tard, et le vocabulaire (100 mots et locutions) enregistré dans la Chronique de Simon Grunau (écrite entre 1517 et 1526) ; les seuls textes conservés sont deux catéchismes luthériens, de 1545 et 1561. — L'autre branche est représentée par deux langues encore parlées actuellement : le lituanien et le letton ou lette, dont les plus anciens livres imprimés datent de 1547 et 1585, respectivement ; d'abord langues parlées par des paysans illettrés, elles furent constituées progressivement en langues écrites au cours des XVIe-XVIIIe s. par les ouvrages de prêtres, de poètes et d'érudits. Une forme normalisée de ces deux langues fut acquise au début du XXe siècle. D'autres dialectes baltiques étaient parlés par des populations qui furent absorbées par les Lettons et les Lituaniens avant le XVIe s., et dont nous avons au moins les noms : couronien (koure), sémigalien, sélonien et yatvinguien. Cette aire linguistique était beaucoup plus étendue qu'aujourd'hui, vers le sud (Ukraine) et l'est (Russie), d'après les toponymes et les hydronymes. Une très riche littérature populaire (chansons, contes) a été préservée jusqu'à la fin du XIXe s. en lituanien et en letton.

11. Albanais : langue de l'Albanie et de communautés résidant dans d'autres pays, principalement en Yougoslavie (Kosovo), en Grèce et en Italie ; les documents les plus anciens remontent au XVe s. après J.-C. (une formule d'une douzaine de mots, datant de 1462), et reflètent l'activité missionnaire catholique, aux XVIe et XVIIe s. : la littérature originale commence au XVIIIe s. ; les deux dialectes principaux sont le guègue au Nord, et le tosque au Sud : la langue littéraire actuelle repose sur une variété du tosque.

12. Vénète : langue autonome, connue par des inscriptions (environ 275) retrouvées au nord de l'Italie, s'échelonnant sur les derniers siècles avant J.-C., sans doute à partir de 550 pour les plus anciennes, et rédigées dans un alphabet de type « nord-étrusque ». Le vénète, considéré par certains comme un dialecte italique, semble se définir plutôt comme un rameau indépendant dans l'aire occidentale des langues indoeuropéennes, qui présente certaines connexions avec l'italique (et notamment avec le latin), mais aussi avec le germanique et le celtique.

13. Il existe en outre quelques langues attestées de façon très fragmentaire (« langues en débris »), qui sont certainement indoeuropéennes, mais dont on ne peut pas toujours préciser s'il s'agit de représentants uniques de rameaux indépendants, ou de branches d'autres groupes dialectaux déjà connus. — Le phrygien, utilisé en Asie Mineure, est documenté par des inscriptions : les textes anciens ou paléo-phrygiens se trouvent sur une aire très vaste, pas seulement en Phrygie proprement dite, et datent dans leur majorité du Ve s. avant J.-C., et des siècles précédents, le plus ancien aux environs de 750 ; les textes récents ou néo-phrygiens sont des IIe et IIIe s. de notre ère. En dépit du témoignage d'Hérodote, le phrygien n'est pas l'ancêtre direct de l'arménien ; on y décèle certaines connexions avec le grec. — Les tribus thraces (incluant les Gètes et les Daces) occupaient dans l'Antiquité la côte septentrionale de la mer Égée, la Bithynie en Asie Mineure, et la plus grande partie de la Bulgarie et de la Roumanie actuelles ; elles parlaient une (ou plusieurs) langue(s) très mal connue(s), seulement par deux inscriptions obscures, par des noms propres, des gloses et par des mots attribués au substrat antérieur au roumain, langue romane. Tout ce qu'on en sait est douteux, et n'autorise pas à y voir une quelconque communauté avec le phrygien. — De même, nous connaissons surtout le vieux macédonien par l'onomastique et par des gloses chez les auteurs anciens ; il s'agissait d'une langue apparentée étroitement au grec, mais qui s'en était différenciée à une époque assez haute. — Pendant longtemps, on a dénommé illyrien la langue supposée de tous les peuples non celtes de l'Empire romain, situés à l'ouest des Thraces, au nord des Macédoniens et des Grecs, et à l'est des Vénètes ; en fait, on distingue trois zones onomastiques, dont une seule relèverait de l'illyrien proprement dit, et l'on ne peut pas préciser sa relation éventuelle avec l'albanais. — Les inscriptions lépontiques (trouvées dans la région des Grands Lacs italiens et au sud de la Suisse) sont de la même époque que les inscriptions vénètes, et écrites dans un autre alphabet « nord-étrusque » ; leur langue est considérée soit comme indépendante, soit comme rattachée au ligure, lequel est connu essentiellement par des toponymes du nord-ouest de l'Italie, soit encore comme de type celtique. — De l'extrême sud-est de l'Italie (Calabre) proviennent plus de 300 inscriptions en messapien, s'étalant depuis 500 environ jusqu'au Ier s. avant notre ère : une langue clairement non italique, mais dont la relation vraisemblable avec l'illyrien n'est pas encore clarifiée. — En Sicile, quelques inscriptions et légendes monétaires, ainsi que des noms propres et des gloses, attestent deux langues, le sicule et l'élyme, dont les relations avec l'italique et le grec sont de toute façon obscurcies par les contacts probables. — Le caractère indoeuropéen de quelques autres langues, connues par de maigres documents, incomplètement déchiffrés, n'est pas encore démontré. Parmi les langues de l'Italie ancienne, l'étrusque, attesté par de nombreuses inscriptions, n'est certainement pas de type indoeuropéen, d'après les quelques traits identifiés de sa phonologie, de sa morphologie et de son vocabulaire.

L'« indoeuropéen »

En plus des écarts considérables de dates, on notera deux faits :

— plusieurs langues sont d'abord connues sous forme de langues de traduction, et doivent leur première notation à la propagation des religions : christianisme (arménien, germanique, celtique, baltique, slave, albanais), bouddhisme et manichéisme (tokharien, langues moyen-iraniennes) ;

— nous pouvons suivre certains groupes de langues sur une très longue période jusqu'à nos jours, dans le cas de l'indo-aryen, de l'iranien, du grec, et dans une moindre mesure, du latin. Le groupe indoeuropéen est la plus étudiée des familles de langues connues. Les langues qui en relèvent présentent des formes, pas nécessairement ressemblantes en surface, entre lesquelles on peut établir des correspondances constantes, grâce à la régularité des changements phonétiques. Les linguistes s'efforcent de retracer la préhistoire des diverses langues indoeuropéennes par la reconstruction de formes de départ et de formes intermédiaires capables d'expliquer les formes attestées ; cela implique une série d'hypothèses sur le processus d'évolution. À toutes les étapes, les arguments sont réfutables, susceptibles d'être contredits par une meilleure analyse de la préhistoire de certaines langues, sans compter la découverte de nouvelles langues ou de nouveaux documents de langues connues.

La reconstruction comparative, qui recourt à la confrontation des faits de langues différentes, est complétée par la reconstruction interne : celle-ci part de la synchronie d'une seule langue, et y repère les vestiges d'états antérieurs, qui peuvent être confirmés par la comparaison. Cette démarche est ainsi résumée par Antoine Meillet : « C'est surtout avec des anomalies de l'époque historique qu'on restitue la règle d'époque indoeuropéenne. » La reconstruction interne s'applique aux états les plus anciens des langues, et aussi à l'indoeuropéen reconstruit, dont on cherche à retracer l'histoire. Cette méthode a donné une nouvelle impulsion à la linguistique historique, depuis Ferdinand de Saussure ; elle est indispensable à l'étude des évolutions de la morphologie. Le statut des formes reconstruites a été largement débattu : elles sont une façon de résumer les correspondances, mais on ne saurait y voir de simples formules algébriques, sous peine de faire de la grammaire comparée un jeu gratuit. Sous certains aspects, la reconstruction a gagné en précision, notamment depuis la découverte de nouveaux phonèmes, les laryngales, et les formes postulées pour les morphèmes sont susceptibles de modifications ; il s'agit donc d'une recherche empirique. Les formes reconstruites, précédées d'un astérisque (sous la forme d'un ° dans cet ouvrage), ne constituent pas des entités dotées de réalité phonétique, bien qu'elles supposent cette réalité ; dans la mesure où l'on tient compte de la cohérence du système reconstruit, les unités obtenues par la reconstruction ont une valeur phonologique (structurale). On peut donc raisonner sur cette langue reconstruite, en sachant tout ce qui la différencie d'une langue réelle, attestée ; la reconstruction n'a guère d'intérêt si elle ne conçoit pas cette proto-langue comme un système, à l'instar de toutes les langues. En définitive, la proto-langue est un système de formes possibles (hypothétiques), dont la portée est explicative.

L'idée d'un arbre généalogique de l'indoeuropéen, avec une série de subdivisions aboutissant à la douzaine de groupes connus, est abandonnée ; le seul groupe préhistorique dont l'existence soit sûre est l'indo-iranien. La grammaire comparée tire parti de toutes les langues, car chacune présente, dans une proportion variable, des conservations et des innovations ; il faut se garder de privilégier, comme on le faisait au XIXe s., tel ou tel groupe de l'indoeuropéen, censé donner une image plus fidèle de la proto-langue. — La validité de la méthode est prouvée par le fait qu'elle est appliquée avec succès, dans les travaux les plus récents, à l'élucidation des langues les plus récemment déchiffrées, celles du groupe tokharien (depuis 1908), et celles du groupe anatolien (depuis 1915). Ces découvertes contribuent à modifier sur des points non négligeables l'image qu'on avait de l'indoeuropéen à la fin du XIXe siècle. L'indoeuropéen reconstruit ne constitue pas une « langue originelle », ni toute la langue ; en effet, la reconstruction ne nous permet d'atteindre qu'une partie du système linguistique, à travers une remontée, toujours hypothétique, vers ses stades précédents. D'ailleurs, on ne peut reconstruire à l'infini ; on n'atteint pas une origine, mais seulement un stade antérieur, qui peut aboutir par une série d'évolutions aux faits attestés. Les éléments reconstruits de l'indoeuropéen peuvent être situés dans une évolution possible, en chronologie relative, mais il est impossible de les situer historiquement, dans le temps et dans l'espace.

L'existence d'une langue commune, établie par la linguistique historique, suppose une communauté de locuteurs, qu'on appelle par simplification les « Indoeuropéens » ; mais on ne dispose d'aucune donnée matérielle sur cette population. Toutes les identifications à certaines cultures connues par l'archéologie se sont révélées très fragiles, notamment à cause de l'absence de textes ; de fait, il n'existe pas de racine signifiant spécifiquement « écrire » dans le lexique reconstruit. — Le rôle de la tradition orale est évidemment intéressant, mais assez banal si on le rapporte à d'autres civilisations anciennes ou primitives. En dépit de tous les chiffres avancés, on peut seulement donner pour la communauté des langues indoeuropéennes un terminus ante quem, qui serait au moins 2000 avant J.-C., car les cinq siècles suivants voient l'établissement des trois groupes les plus anciens : anatolien, grec et indo-iranien. Il est impossible de déduire des différences entre les langues le temps nécessaire à leur différenciation, ni le lieu géographique de la communauté. Les langues n'évoluent pas à la même vitesse : parmi les langues indoeuropéennes actuelles, les langues baltiques et slaves, qui ne sont pas les plus anciennement attestées, sont dans l'ensemble les plus conservatrices. Pour déterminer le degré de civilisation et le lieu géographique de la communauté indoeuropéenne, on a utilisé le témoignage du vocabulaire (noms d'arbres, d'animaux, de métaux, etc.) ; mais, en plus des difficultés factuelles, on oublie trop souvent que le mot que nous pouvons reconstruire nous fournit seulement l'association d'un signifiant et d'un signifié, tous deux déduits de la comparaison ; il faut tenir compte de l'évolution possible du signifié dans la période préhistorique, des remplacements de lexèmes. Enfin et surtout, cette « paléontologie linguistique » néglige un point de méthode essentiel : de la reconstruction possible du signifié (le « sens » d'un mot), on ne saurait déduire l'existence d'un référent unique, présent dans l'environnement immédiat des « Indoeuropéens ». La notion mal fondée de « civilisation indoeuropéenne » est un sous-produit de la grammaire comparée, et l'extension de la reconstruction à l'extra-linguistique, civilisation matérielle et morale, entraîne de graves erreurs d'appréciation. Un secteur, déjà développé et très prometteur des recherches concerne la poétique des textes les plus anciens : la formation de certains genres littéraires et l'emploi de formules. Nous sommes en mesure de reconstruire non seulement des mots ou locutions isolés, mais aussi des associations fixes de termes (groupes nominaux avec épithète ou groupes associant une racine et son complément) ; leur étude interfère souvent avec les études sur la syntaxe et sur l'étymologie. Cependant, cet ensemble de formules ne peut nous révéler toute la mentalité des « Indoeuropéens » ; il indique l'existence, à une époque non déterminée, de poètes, spécialistes de la parole, et disposant d'un inventaire de syntagmes expressifs. Mais ce formulaire n'est pas représentatif de tout l'usage de la langue dans toute la communauté linguistique ; il convient de s'interroger sur les processus de transmission et de réinterprétation de tels syntagmes. La même prudence peut s'appliquer aux recherches sur des unités textuelles plus vastes que la formule (mythes, épopées, etc.). Les travaux d'Émile Benveniste montrent l'intérêt pour l'anthropologie historique des recherches d'étymologie, quand elles s'appuient sur la restitution de sens précis, par l'observation de l'emploi des mots en discours. La diversité typologique des sources dans les langues indoeuropéennes anciennes est très grande. On croit retrouver dans l'héritage linguistique des permanences culturelles ; cette démarche est dangereuse : il serait aussi absurde de considérer les habitants francophones des Antilles ou de la Réunion comme des « Latins », se rattachant à la civilisation romaine. L'indoeuropéanisation, c'est-à-dire l'adoption par des populations ethniquement et culturellement diverses de langues de la même famille, est un fait historique massif : on lui a souvent donné une réponse idéologique, en admettant que ce processus aurait été facilité par la « supériorité » de la civilisation, de l'organisation sociale des peuples de langue indoeuropéenne ; or, les exemples observés historiquement d'extension de telle ou telle langue montrent que les causes de succès d'un type linguistique sur un autre sont multiples, et ne se laissent pas ramener à un schéma simple. Les multiples expériences d'acquisition d'une langue indoeuropéenne à différentes époques et dans des aires variées fournissent un terrain privilégié à la recherche sur les contacts linguistiques.

❏ voir RECONSTRUCTION.

G.-J. Pinault

BIBLIOGRAPHIE

É. BENVENISTE, Le Vocabulaire des institutions indoeuropéennes, 2 vol., Paris, Éd. de Minuit, 1969.
J. HAUDRY, L'Indoeuropéen, Paris, Que sais-je ?, no 1798, 1979 (2e éd., 1984).
A. MARTINET, Des steppes aux océans, Paris, Payot, 1987.
A. MEILLET, Introduction à l'étude comparative des langues indoeuropéennes, Paris, Hachette, 1937 (8e éd.) ; — La Méthode comparative en linguistique historique, Oslo, 1925 (réimpr. Paris, Champion, 1970).
O. SZEMERÉNYI, Einführung in die vergleichende Sprachwissenschaft, 4., vollständig neu bearbeitete Auflage, Darmstadt, Wissenschaftliche Buchgesellschaft, 1990 (1re éd., 1970).