Il linguista Noam Chomsky (nato nel 1928) nel classico Strutture sintattiche, (1957) propone una gerarchia di grammatiche, oggi chiamata “gerarchia di Chomsky”, per classificare la complessità dei linguaggi formali. Un linguaggio formale è un insieme di stringhe di simboli di lunghezza finita costruiti sulla base di un dato alfabeto, mentre una grammatica è un insieme di regole perfettamente esplicite che trasformano una stringa di simboli in un’altra. Per la loro semplicità matematica le grammatiche introdotte da Chomsky si sono rivelate notevolmente applicabili anche all’interno di discipline diverse dalla linguistica come l’informatica (tecniche di compilazione dei linguaggi di programmazione), la logica e perfino la biologia molecolare.
L’idea fondamentale di Chomsky è che le regole grammaticali “generano” un linguaggio, non nel senso per cui un parlante in carne e ossa userebbe queste regole per generare un linguaggio, ma nel senso matematico di essere logicamente capaci di caratterizzare enunciati grammaticali. In questo modo la nozione chiave di “generatività” consente di disporre della nozione di derivazione depurata dalla psicologia.
Formalmente, una grammatica G è una quadrupla < Σ, Vn, P, S > dove:
– Σ è l’insieme degli elementi terminali della grammatica, chiamati “parole” del linguaggio, denotati da a, b, c;
– Vn è l’insieme degli elementi non terminali (denotati da A, B, C) che sono utilizzati nelle tappe intermedie della derivazioni di frasi;
– P è l’insieme delle regole di produzione (di riscrittura) della forma: α→β; dove α e β denotano stringhe costituite da elementi di Σ o di Vn;
– S è l’assioma o simbolo iniziale della grammatica, cioè un elemento particolare di Vn.
La gerarchia di Chomsky ospita quattro classi di grammatiche in un ordine decrescente di generalità, cioè classificate in base alle restrizioni che contraddistinguono le regole di produzione:
- grammatiche di tipo 0 (senza vincoli);
- grammatiche di tipo 1 (contestuali o context-sensitive);
- grammatiche di tipo 2 (acontestuali o context-free);
- grammatiche di tipo 3 (grammatiche regolari).
La gerarchia è “genuina” nel senso che ogni classe di grammatiche è inclusa propriamente nella precedente. A ciascuna classe di grammatiche corrisponde la classe di linguaggi che sono generabili con grammatiche di quella classe e, a loro volta, ogni classe di questi linguaggi è associata a un particolare automa, cioè un meccanismo astratto capace di determinare per un linguaggio L e una frase f se f appartiene o no a L. Per limitarci agli estremi della gerarchia, i linguaggi di tipo 3, o regolari, sono precisamente quelli riconosciuti da un automa a stati finiti (una macchina che non richiede memoria di lavoro), i linguaggi di tipo 0 sono precisamente quelli riconosciuti da una macchina di Turing.
La questione della precisa relazione tra la gerarchia di Chomsky e i linguaggi naturali – che si possono considerare astrattamente come insiemi di stringhe di parole – ha attirato l’attenzione dei linguisti. Nel lavoro del 1957 Chomsky offre un’esposizione chiara dell’insufficienza delle grammatiche di tipo 3 come modelli per il linguaggio naturale, e sulla sua scia numerosi argomenti sono stati proposti a favore dell’inadeguatezza delle grammatiche di tipo 2. Da un punto di vista strettamente matematico, si è rilevato molto difficile dimostrare questa conclusione.