1 Automaten und Maschinen erkennen Sprachen
Computer verarbeiten Texte als Folgen von Symbolen eines bestimmten Alphabets. Computerprogramme sind Texte über dem Alphabet einer Rechnertastatur, also den Symbolen der Tasten eines Keyboards. Diese Texte werden im Computer automatisch in Bitfolgen der Maschinensprache übersetzt, also Symbolfolgen eines Alphabets aus den beiden Ziffern 0 und 1, die für alternative technische Zustände der Rechenmaschine stehen. Über diese Texte und ihre Übersetzung in technische Abläufe kommt die physikalische Maschine des Computers zum Laufen. Wir werden im Folgenden zunächst ein allgemeines System von formalen Sprachen einführen, die von unterschiedlichen Typen von Automaten und Maschinen verstanden werden. Die natürlichen Sprachen von uns Menschen, aber auch die Kommunikationsmittel anderer Organismen werden sich als Spezialfälle unter besonderen Umständen (Kontexten) herausstellen (Mainzer 2019, Kap. 5.2).
Ein Alphabet Σ ist eine endliche (nichtleere) Menge von Symbolen (die je nach Anwendung auch Zeichen oder Buchstaben genannt werden). Beispiele sind
Σbool = {0,1} Boolesches Alphabet der Maschinensprache,
Σlat = {a, b, …, z, A, B, …, Z} lateinisches Alphabet einiger natürlicher Sprachen,
ΣTastur besteht aus Σlat und den anderen Symbolen einer Tastatur wie z. B. !‚ ‘, §, $, … und dem Leerzeichen ⊔ (als leere Stelle zwischen Symbolen).
Ein Wort über Σ ist eine endliche oder leere Folge von Symbolen. Das leere Wort wird mit ε bezeichnet. Die Länge |w| eines Worts w bezeichnet die Anzahl der Symbole eines Worts (mit |ε| = 0 für ein leeres Wort, aber |⊔| = 1 für das Leerzeichen der Tastatur). Beispiele von Worten sind
„010010“ über dem Booleschen Alphabet Σbool,
„Jetzt geht’s los!“ über Tastaturalphabet ΣTastur.
Σ∗ bezeichnet die Menge aller Worte über dem Alphabet Σ.
Beispiel: Σbool∗ = {ε, 0,1, 00,01, 10,11, 000, …}
Eine Sprache L über einem Alphabet Σ ist eine Teilmenge von Σ∗.
Die Verkettung von Worten w und v aus Σ∗ wird mit wv bezeichnet. Entsprechend ist L1L2 die Verkettung der Sprachen L1 und L2, die aus den verketten Worten wv mit w aus L1 und v aus L2 besteht.
Wann erkennt nun ein Automat oder eine Maschine eine Sprache?
Ein Algorithmus (d. h. Turingmaschine bzw. nach der Churchschen These ein Computer) erkennt eine Sprache L über einem Alphabet Σ, wenn er für alle Symbolfolgen w aus Σ∗ entscheiden kann, ob w ein Wort aus L ist oder nicht.
1.1 Endliche Automaten erkennen reguläre Sprachen
Wir unterscheiden Automaten und Maschinen unterschiedlicher Komplexität, die Sprachen unterschiedlicher Komplexität erkennen können (Hotz und Walter 1968–1969). Endliche Automaten sind besonders einfache Automaten, mit denen sich Vorgänge auf der Grundlage beschränkter Speicher ohne Verzögerung beschreiben lassen (Böhling et al. 1969). Beispiele sind Telefonschaltungen, Addieren, das Bedienen von Kaffeeautomaten oder die Steuerung von Fahrstühlen. Multiplikationen lassen sich nicht mit endlichen Automaten durchführen, da dazu Zwischenrechnungen mit Verzögerungen bei der Bearbeitung notwendig sind. Das gilt auch für den Vergleich von Worten, da sie beliebig lang sein und nicht mehr in einem beschränkten Speicher zwischengespeichert werden können.

Schema eines endlichen Automaten. (Aus Mainzer 2019; mit freundlicher Genehmigung von @Springer Verlag GmbH Deutschland 2022. All Rights Reserved)
Bei der Spracherkennung beginnt die Arbeit eines endlichen Automaten mit der Eingabe eines Worts w über dem Alphabet Σ. Bei der Eingabe ist der endliche Automat in einem bestimmten Zustand s0. Jeder endliche Automat ist durch eine Menge von akzeptierenden Zuständen (bzw. Endzuständen) charakterisiert. Bei den weiteren Verarbeitungsschritten verändern sich die Symbolfolgen und jeweiligen Zustände des Automaten, bis schließlich nach endlichen vielen Schritten das leere Wort ε in einem Zustand s erreicht ist. Wenn dieser Endzustand s zu den ausgezeichneten akzeptierenden Zuständen des Automaten gehört, dann hat der endliche Automat das Wort akzeptiert. Im andern Fall wird das Wort w vom Automaten verworfen. Ein endlicher Automat akzeptiert also ein Eingabewort, wenn er sich nach dem Lesen des letzten Buchstabens des Eingabeworts in einem akzeptierenden Zustand befindet.
Die von einem endlichen Automaten EA akzeptierte Sprache L(EA) besteht aus den akzeptierten Worten w aus Σ∗.
Die Klasse (EA) aller Sprachen, die von einem endlichen Automaten EA akzeptiert werden, bezeichnet man als Klasse der regulären Sprachen.
Reguläre Sprachen sind durch reguläre Ausdrücke (Worte) charakterisierbar, die aus den Symbolen eines Alphabets durch Alternative, Verkettung und Wiederholung entstehen. Man betrachte z. B. das Alphabet Σ = {a, b, c}. Beispiel einer regulären Sprache ist dann die Sprache, die alle Wörter umfasst, die aus beliebig vielen a (Wiederholungen wie z. B. a, aa, aaa, …) oder (Alternative) aus beliebig vielen b (Wiederholungen wie z. B. b, bb, bbb, …) bestehen. Ein weiteres Beispiel einer regulären Sprache umfasst alle Worte, die mit a beginnen, mit b aufhören und dazwischen nur Wiederholungen von c enthalten wie z. B. acb, accccb.
Um zu zeigen, dass eine Sprache nicht regulär ist, genügt es zu zeigen, dass es keinen endlichen Automaten gibt, der sie akzeptiert. Endliche Automaten haben keine andere Speichermöglichkeit als den aktuellen Zustand. Wenn also ein endlicher Automat nach dem Lesen zweier unterschiedlicher Worte wieder im gleichen Zustand endet, kann er nicht mehr zwischen den beiden Worten unterscheiden: Er hat den Unterschied „vergessen“.
Ein deterministischer endlicher Automat ist durch deterministische Abläufe bestimmt. Dabei ist jede Konfiguration aus Automatenzustand und jeweils gelesenem Wort eindeutig festgelegt. Ein Programm bestimmt vollständig und eindeutig die Folge der Konfigurationen aus Automatenzuständen und zugehörigen Worten.
Ein nichtdeterministischer endlicher Automat erlaubt in bestimmten Konfigurationen eine Auswahl von mehreren möglichen nachfolgenden Konfigurationen.
Daher kann ein nichtdeterministischer Algorithmus zu exponentiell vielen Möglichkeiten führen. Im Allgemeinen gibt es aber keine effizientere Art, nichtdeterministische Algorithmen durch deterministische Algorithmen zu simulieren, als alle möglichen Alternativen durch einen deterministischen Algorithmus zu simulieren. Auch im Fall von endlichen Automaten lässt sich beweisen, dass die nichtdeterministische Erweiterung der Möglichkeiten für die Spracherkennung nichts Neues leistet: Die deterministischen endlichen Automaten akzeptieren dieselben Sprachen wie die nichtdeterministischen endlichen Automaten.
1.2 Turingmaschinen erkennen rekursiv aufzählbare Sprachen
einer endlichen Kontrolle, die das Programm enthält,
einem unbegrenzten Band, das sowohl als Eingabeband und Speicher verwendet wird
einem Lese-/Schreibkopf, der das Band in beiden Richtungen bewegen kann,
Eine Turingmaschine TM ist durch einen Anfangszustand, einem akzeptierenden und einem verwerfenden Zustand bestimmt. Wenn TM den akzeptierenden Zustand erreicht, akzeptiert sie das Eingabewort, unabhängig wo der Lese-/Schreibkopf auf dem Band steht. Wenn TM den verwerfenden Zustand erreicht, verwirft sie das Eingabewort und stoppt. Ein Wort wird aber von einer TM auch dann verworfen, wenn sie nach seiner Eingabe nicht nach endlich vielen Schritten stoppt.
Die von einer Turingmaschine TM akzeptierte Sprache L(TM) besteht aus den akzeptierten Worten w aus Σ∗.
Die Klasse (TM) aller Sprachen, die von einer Turingmaschine TM akzeptiert werden, bezeichnet man als Klasse der rekursiv aufzählbaren Sprachen.
Eine Sprache heißt rekursiv bzw. entscheidbar, falls es eine Turingmaschine TM gibt, die für alle Worte w aus Σ∗ entscheiden kann, ob w akzeptiert wird (und zur Sprache gehört) oder nicht akzeptiert wird (und damit nicht zur Sprache gehört).
Nach der Churchschen These ist die Turingmaschine der logisch-mathematische Prototyp für einen Computer überhaupt – unabhängig von seiner technischen Realisation als z. B. Supercomputer, Laptop oder Smartphone. Praktische Rechner haben aber die sogenannte von-Neumann-Architektur, wonach der Speicher für Programm und Daten, CPU und Eingabe technisch unabhängige Einheiten sind. In einer Turingmaschine sind Eingabe und Speicher in einer Einheit des Bands, Lesen und Schreiben in einem Lese/Schreibkopf zusammengezogen. Das ist theoretisch kein Problem, da sich Mehrband-Turingmaschinen definieren lassen, die über mehrere Bänder mit eigenem Lese/Schreibkopf verfügen. Sie übernehmen dann die getrennten Funktionen der von-Neumann-Architektur. Logisch-mathematisch ist die Einband-Turingmaschine mit der Mehrband-Turingmaschine äquivalent, d. h. kann sie simulieren.
Analog wie bei endlichen Automaten lassen sich deterministische Turingmaschinen zu nichtdeterministischen Turingmaschinen erweitern. Eine nichtdeterministische Turingmaschine kann endlich viele Alternativen nach einem Eingabewort verfolgen. Man kann sich diese Bearbeitungen grafisch als Verzweigungsbaum vorstellen. Das Eingabewort wird akzeptiert, wenn wenigstens eine dieser Bearbeitungen im akzeptierenden Zustand der Turingmaschine endet. Als Bearbeitungsstrategie solcher Verzweigungsbäume unterscheidet man die Tiefensuche von der Breitensuche. Bei der Tiefensuche wird jeder „Ast“ des Verzweigungsbaums nacheinander darauf getestet, ob er in einem akzeptierten Endzustand endet. Bei der Breitensuche werden alle Äste gleichzeitig bis zu einer bestimmten Tiefe getestet, ob einer die Äste den akzeptierenden Zustand erreicht. Der Vorgang wird Schritt für Schritt so lange wiederholt, bis dieser Fall eintritt. Dann stoppt die Maschine. Durch eine Breitensuche des Verzweigungsbaums können nichtdeterministische Turingmaschinen durch deterministische Turingmaschinen simuliert werden.
Im Allgemeinen ist keine effizientere deterministische Simulation von nichtdeterministischen Algorithmen bekannt, als Schritt für Schritt alle Berechnungen eines nichtdeterministischen Algorithmus zu simulieren. Das hat allerdings seinen Preis: Bei der Simulation von Nichtdeterminismus durch Determinismus wächst die Rechenzeit exponentiell. Bisher ist die Existenz einer wesentlich effizienteren Simulation nicht bekannt. Die Nichtexistenz einer solchen Simulation wurde bisher jedoch noch nicht bewiesen.
1.3 Semantik und generative Chomsky-Grammatiken
Von natürlichen Sprachen sind wir gewohnt, dass ihre Worte und Sätze durch grammatikalische Regeln bestimmt werden. Jede Sprache lässt sich durch eine Grammatik, d. h. ein System entsprechender Regeln bestimmen. Dabei unterscheidet man zwischen Terminalsymbolen wie a, b, c, … und Nichtterminalsymbolen (Nichtterminale) A, B, C, …; X, Y, Z, … Nichtterminale werden wie Variablen (Leerstellen) verwendet, die durch andere Wörter ersetzt werden können (Hromkovic 2011).
Beispiel einer Grammatik:
Terminale: a, b
Nichtterminale: S
Regeln:
R1: S → ε
R2: S → SS
R3: S → aSb
R4: S → bSa

In der Linguistik werden Grammatiken zur syntaktischen Beschreibung der natürlichen Sprachen verwendet. Dazu werden syntaktische Kategorien wie 〈Satz〉, 〈Text〉, 〈Nomen〉 und 〈Adjektiv〉 als Nichtterminale eingeführt. Texte lassen sich mit entsprechenden Grammatikregeln ableiten.



![$$ \left\langle Nomen\right\rangle \to \left[ Baum\right] $$](../images/446753_1_De_55_Chapter/446753_1_De_55_Chapter_TeX_Eque.png)
![$$ \left\langle Adjektiv\right\rangle \to \left[ gr\ddot{\mathrm{u}} ner\right] $$](../images/446753_1_De_55_Chapter/446753_1_De_55_Chapter_TeX_Equf.png)
- 1)
Reguläre Grammatik:
Die einfachste Klasse umfasst die regulären Grammatiken, die genau die Klasse der regulären Sprachen erzeugen. Die Regeln einer regulären Grammatik haben die Form X → u und X → uY für ein Terminal u und den Nichtterminalen X und Y.
- 2)
Kontextfreie Grammatik:
Alle Regeln haben die Form X → α mit einem Nichtterminal X und einem Wort α aus Terminalen und Nichterminalen.
- 3)
Kontextsensitive Grammatik:
In den Regeln α → β ist die Länge von Wort α nicht größer als die Länge von Wort β. Daher kann bei den Ableitungen kein Teilwort α durch ein kürzeres Teilwort β ersetzt werden.
- 4)
Uneingeschränkte Grammatik:
Diese Regeln unterliegen keinen Einschränkungen.
In welchem Verhältnis stehen die unterschiedlichen Grammatiken zu Automaten und Maschinen, die diese Sprachen erkennen? Zu jeder regulären Grammatik lässt sich ein äquivalenter endlicher Automat angegeben, der die entsprechende reguläre Sprache erkennt. Umgekehrt lässt sich zu jedem endlichen Automaten eine äquivalente reguläre Grammatik angeben, mit der die entsprechende reguläre Sprache erzeugt wird.
Kontextfreie Grammatiken erzeugen kontextfreie Sprachen. Als passender Automatentyp, der kontextfreie Sprachen erkennt, lassen sich Kellerautomaten einführen:

Architektur eines Kellerautomaten. (Aus Mainzer 2019; mit freundlicher Genehmigung von @Springer Verlag GmbH Deutschland 2022. All Rights Reserved)
Der Kellerautomat beginnt also seine Arbeit mit dem gelesenen Symbol auf dem Eingabeband, dem Zustand der endlichen Kontrolle und dem obersten Symbol des Kellers. In weiteren Aktionen ändert er den Zustand, rückt mit dem Lesekopf ein Feld nach rechts und ersetzt das oberste Symbol X des Kellers durch ein Wort α.
Die nichtdeterministischen Kellerautomaten erkennen genau die Klasse von kontextfreien Sprachen. Die nichtdeterministischen Kellerautomaten sind also mit den kontextfreien Grammatiken äquivalent, die genau die kontextfreien Sprachen erzeugen. In der Informatik eignen sich kontextfreie Grammatiken, um Programmiersprachen darzustellen. Die durch kontextfreie Grammatiken erzeugten Wörter entsprechen korrekten Programmen der modellierten Programmiersprache. Daher eignen sich kontextfreie Grammatiken für den Bau von Compilern. Dabei handelt es sich um Computerprogramme, die ein anderes Programm, das in einer bestimmten Programmiersprache geschrieben ist, in eine Form übersetzen, die von einem Computer ausgeführt werden kann.
In der Chomsky-Hierarchie folgen nun die kontextsensitiven Sprachen, die durch kontextsensitive Grammatiken erzeugt werden. Kontextsensitive Sprachen werden von einem eingeschränkten Maschinentyp der Turingmaschine erkannt:
Ein linear beschränkter Automat ist eine Turingmaschine, deren Arbeitsband durch die Länge des Eingabeworts beschränkt ist. Dazu werden zwei zusätzliche Symbole verwendet, die das linke bzw. rechte Ende des Eingabeworts markieren und die während der Bearbeitung nicht überschritten werden dürfen.
Die Menge der von nicht-deterministischen linear beschränkten Automaten erkannten Sprachen ist gleich der Menge der kontextsensitiven Sprache. Es ist bisher nicht bewiesen, ob deterministische linear beschränkte Automaten die gleiche Sprachklasse akzeptieren wie die nichtdeterministischen.
Die uneingeschränkten Grammatiken erzeugen genau die rekursiv aufzählbaren Sprachen, die durch Turingmaschinen erkannt werden können. Die Menge der rekursiv aufzählbaren Sprachen ist also genau die Klasse aller Sprachen, die durch Grammatiken überhaupt erzeugt werden kann.
Sprachen, die nicht rekursiv aufzählbar sind, können also nur durch Maschinen erkannt werden, die jenseits der Turingmaschine liegen, also – anschaulich gesprochen – „mehr können als Turingmaschinen“. Das ist für die Frage der KI zentral, ob Intelligenz auf Turingmaschinen als Prototypen von Computern reduziert werden kann oder mehr ist.
Generative Grammatiken erzeugen nicht nur syntaktische Symbolfolgen. Sie bestimmen auch die Bedeutung von Sätzen. Dazu analysierte Chomsky zunächst die Oberfläche eines Satzes als ein aus Phrasen und Phrasenteilen zusammengesetztes Gebilde. Sie wurden durch weitere Regeln in weitere Teile zerlegt, bis schließlich die einzelnen Worte eines Satzes einer natürlichen Sprache ableitbar werden. Danach besteht ein Satz aus Nominalphrase und Verbalphrase, eine Nominalphrase aus Artikel und Substantiv, eine Verbalphrase aus Verb und Nominalphrase, etc. So lassen sich Sätze durch unterschiedliche grammatische Tiefenstrukturen charakterisieren, um unterschiedliche Bedeutungen zu erfassen.
![$$ \left\langle S\right\rangle \to \left\langle NP\right\rangle \left\langle VP\right\rangle \, \left\langle \mathit{\Pr}\right\rangle \to \left[ sie\right] $$](../images/446753_1_De_55_Chapter/446753_1_De_55_Chapter_TeX_Equg.png)
![$$ \left\langle NP\right\rangle \to \left\langle T\right\rangle \left\langle N\right\rangle \, \left\langle V\right\rangle \to \left[ vertrieb\right] $$](../images/446753_1_De_55_Chapter/446753_1_De_55_Chapter_TeX_Equh.png)
![$$ \left\langle NP\right\rangle \to \left\langle \mathit{\Pr}\right\rangle \, \left\langle T\right\rangle \to \left[ den\right] $$](../images/446753_1_De_55_Chapter/446753_1_De_55_Chapter_TeX_Equi.png)
![$$ \left\langle NP\right\rangle \to \left\langle NP\right\rangle \left\langle PP\right\rangle \, \left\langle T\right\rangle \to \left[ dem\right] $$](../images/446753_1_De_55_Chapter/446753_1_De_55_Chapter_TeX_Equj.png)
![$$ \left\langle VP\right\rangle \to \left\langle V\right\rangle \left\langle NP\right\rangle \, \left\langle N\right\rangle \to \left[ Mann\right] $$](../images/446753_1_De_55_Chapter/446753_1_De_55_Chapter_TeX_Equk.png)
![$$ \left\langle VP\right\rangle \to \left\langle VP\right\rangle \left\langle PP\right\rangle \, \left\langle N\right\rangle \to \left[ Hund\right] $$](../images/446753_1_De_55_Chapter/446753_1_De_55_Chapter_TeX_Equl.png)
![$$ \left\langle PP\right\rangle \to \left\langle P\right\rangle \left\langle NP\right\rangle \, \left\langle P\right\rangle \to \left[ mit\right] $$](../images/446753_1_De_55_Chapter/446753_1_De_55_Chapter_TeX_Equm.png)

Semantische Tiefenstruktur einer Chomsky-Grammatik. (Aus Mainzer 2019; mit freundlicher Genehmigung von @Springer Verlag GmbH Deutschland 2022. All Rights Reserved)
Nur in der Oberflächenstruktur eines Satzes unterscheiden sich natürliche Sprachen. Die Verwendung von Produktionsregeln ist nach Chomsky universal. Mit einem Turing-Programm, das endlich viele rekursive Produktionsregeln simuliert, lassen sich beliebig viele Sätze und ihre Tiefengrammatiken erzeugen.
1.4 Semantische Tiefenstruktur und Kognition
Der Sprachphilosoph J. Fodor geht über Chomsky noch hinaus, da er für die sprachlichen Tiefenstrukturen und Universalien psychisch reale Kognitionsstrukturen annimmt, die allen Menschen angeboren sind (Fodor 1975). Geist wird als System semantischer Repräsentationen verstanden, die universal und angeboren sind und in die sich alle Begriffe zerlegen lassen. Fodor spricht von einer „Gedankensprache“ (language of thought).
Kommunikation zwischen Menschen ist allerdings keineswegs auf Gedankenaustausch über Sachverhalte beschränkt. Kommunikation besteht aus Handlungen des Sprechens, die Absichten verfolgen und Veränderungen der Umwelt auslösen. Der amerikanische Philosoph J. Searle hat dafür im Anschluss an den britischen Sprachphilosophen J. L. Austin (1972) den Begriff des Sprechaktes verwendet. Ein Sprechakt wie z. B. „Können Sie mir Information über eine bestimmte Person geben?“ ist durch verschiedene Handlungskomponenten bestimmt. Zunächst ist nach Austin der Übermittlungsvorgang des Ansprechens zu beachten (lokutionärer Akt). Mit dem Sprechakt sind bestimmte Absichten des Sprechers wie z. B. Bitte, Befehl oder Frage verbunden (illokutionärer Akt). Der perlokutionäre Akt hält die Auswirkungen des Sprechaktes auf den Adressaten einer Nachricht fest, z. B. die Bereitschaft, eine Information über eine Person zu geben oder nicht. Searle hat die Sprechakttheorie mit weiteren Aspekten und Unterscheidungen ausgebaut (Searle 1969).
Die Sprechakttheorie hat bemerkenswerte Ähnlichkeiten mit der Computersprache KQML (Knowledge and Query Manipulation Language), mit der die Kommunikation zwischen Suchprogrammen („Agenten“) im Internet definiert wird (Finin et al. 1994). Die Agentensprache KQML stellt Protokolle zur gegenseitigen Identifizierung, zum Aufbau einer Verbindung und zum Nachrichtenaustausch zur Verfügung. Auf der Nachrichtenebene werden Sprechakttypen festgelegt, die in unterschiedlichen Computersprachen formuliert sein können.
In der Technik geht es zunächst um möglichst effiziente Teillösungen, die Erkennung, Analyse, Transfer, Generierung und Synthese von natürlich sprachlicher Kommunikation durch Computerprogramme verwirklichen. Diese technischen Lösungen müssen keineswegs die Sprachverarbeitung des menschlichen Gehirns imitieren, sondern können vergleichbare Lösungen auch auf anderen Wegen erreichen. So ist es für begrenzte Kommunikationszwecke von Computerprogrammen keineswegs notwendig, dass alle Sprachschichten bis zur Bewusstseinsebene des Menschen technisch simuliert werden müssen.
Tatsächlich sind wir in einer technisch hochentwickelten Gesellschaft auch auf implizites und prozedurales Wissen angewiesen, das nur begrenzt in Regeln erfasst werden kann. Emotionales, soziales und situatives Wissen im Umgang mit Menschen lässt sich nur begrenzt in Regeln fassen. Gleichwohl wird dieses Wissen notwendig, um benutzerfreundliche Bedienungsoberflächen von technischen Geräten wie Computer zu gestalten. Künstliche Intelligenz sollte sich ebenso an den Bedürfnissen und Intuitionen seiner Benutzer orientieren und sie nicht mit komplizierten Regeln überfordern.
2 Sprachverständnis durch Maschinen?
Sprachverständnis wird bei Menschen durch entsprechende Fähigkeiten des Gehirns möglich. Es liegt daher nahe, neuronale Netze und Lernalgorithmen nach dem Vorbild des Gehirns einzusetzen.
2.1 Ein neuronales Netz lernt lesen

NETalk lernt lessen. (Aus Mainzer 2019; mit freundlicher Genehmigung von @Springer Verlag GmbH Deutschland 2022. All Rights Reserved)
Als Input von NETalk wird ein Text zeichenweise erfasst (Abb. 4) (Kinzel und Deker 1988). Da für die Aussprache eines Zeichens die umgebenden Zeichen wichtig sind, werden auch die drei vor und nach dem betreffenden Zeichen stehenden Symbole registriert. Jedes der sieben pro Schritt gelesenen Zeichen wird von Neuronen untersucht, die jeweils dem Buchstaben des Alphabets, Satz- und Leerzeichen entsprechen. Der Output gibt die phonetische Aussprache des Textes an. Jedes Outputneuron ist für eine Komponente der Lautbildung zuständig. Die Umsetzung dieser Lautkomponenten in einen hörbaren Laut leistet ein gewöhnlicher konventioneller Syntheziser. Entscheidend ist der Lernvorgang des Lesens, der sich zwischen Inputtext und Outputaussprache selbst organisiert. Dazu ist eine dritte Ebene von Neuronen eingeschoben, deren synaptische Verbindungen mit Input- und Outputneuronen durch numerische Gewichte simuliert werden.
In einer Trainingsphase erlernt das System zunächst die Aussprache eines Beispieltextes. Dem System wird also kein Programm mit expliziten Regeln der Lautbildung eingegeben. Die Aussprache des Textes ist vielmehr durch synaptische Verschaltung der Neuronen gespeichert. Bei einem fremden Text werden seine zunächst zufälligen Aussprachelaute mit den gewünschten Lauten des Standardtextes verglichen. Ist der Output nicht korrekt, arbeitet sich das System wieder rückwärts zur internen Ebene und prüft nach, warum die Vernetzung zu diesem Output führte, welche Verbindungen das höchste Gewicht und damit den größten Einfluss auf diesen Output hatten. Es verändert dann die Gewichte, um schrittweise das Resultat zu optimieren. NETalk arbeitet also nach dem auf D. Rumelhart u. a. zurückgehenden Lernalgorithmus der Backpropagation.
Das System lernt Lesen ähnlich wie ein Mensch exemplarisch durch ‚Learning by doing‘ und nicht regelbasiert. In immer neuen Leseversuchen verbessert das System wie ein Schulkind seine Aussprache und hat schließlich eine Fehlerquote von ca. 5 %.
2.2 Von der Textverarbeitung zu Digital Humanities
Benötigen wir aber tatsächlich zunächst die Kenntnis der neuronalen Sprachverarbeitung von Gehirnen, um KI-Software für Sprachverarbeitung einzusetzen? Mit den wachsenden Leistungen von Computern wurden bereits in der Vergangenheit einzelne Werke wie z. B. von Galilei und Thomas von Aquin digital gespeichert und katalogisiert. Als Google schließlich zur systematischen Digitalisierung von Literatur weltweit überging, eröffneten sich neue Möglichkeiten der Bearbeitung, die nun unter der Fachbezeichnung „Digital Humanities“ zusammengefasst werden (Schreibman et al. 2004; Thaler 2012). Die Methoden der Digital Humanities gehen über die bloße Digitalisierung von Texten hinaus und bedienen sich Methoden von Big Data. Ein wesentlicher Ansatz von Big Data besteht darin, dass man die Inhalte im Detail nicht kennen muss, um bestimmte Informationen aus Daten abzuleiten (Mainzer 2019, Kap. 5.3). In der Forschungsrichtung eCodicology werden Metadaten von alten Manuskripten algorithmisch erstellt, um Rückschlüsse auf Entstehungsorte, Produktionsbedingungen und kontextuale Zusammenhänge ziehen zu können. Metadaten betreffen z. B. Seitenformat, Beschriftungen, Register oder Marginalien.
In dem Projekt ePoetics wird die Ausbreitung literaturwissenschaftlicher Terminologie in einem historischen Zeitraum untersucht. Daraus ergeben sich Rückschlüsse über die Entwicklung der Literaturtheorie in diesem Zeitraum. Ein einzelner Wissenschaftler kann nur begrenzt viele Texte lesen. Um Epochen und Stilrichtungen zu erfassen und zu kategorisieren, sind unter Umständen Tausende von Romanen und Novellen notwendig. Geeignete Software vermag Korrelationen schnell zu liefern und anschaulich in Diagrammen zu illustrieren. Es gilt allerdings der kritische Vorbehalt: Der Superrechner ersetzt am Ende nicht die Bewertung und Interpretation des Literaturwissenschaftlers. Allerdings vermag geeignete Software, wie das Semantic Web zeigt, durchaus semantische Kontexte erkennen.
In einem nächsten Schritt kommen Software-Agenten (engl. Bots) zum Einsatz, die automatisch Texte verfassen. Bei einfachen Texten, wie sie in den sozialen Medien üblich sind, wird das nicht weiter verwundern. Twittern wir bereits mit Bots anstelle von Menschen? Aber auch in bestimmten Sparten des Journalismus ersetzen Bots die Textschreiber oder unterstützen sie wenigstens. Die Firma Narrative Science bietet Software an, um Artikel in Zeitschriften automatisch zu erstellen. Unternehmen nutzen diese Schreibprogramme für z. B. automatisierte Börsenberichte. Die Schreibprogramme können sich im Stil einem Verfasser anpassen. Durch Verbindung mit einer Datenbank kann der Text schnell publiziert werden. Banken greifen auf die Texte zurück und können auf diese Weise sofort auf neue Daten reagieren, um Gewinne schneller als Konkurrenten zu erzielen. Auch hier ist wieder bemerkenswert und typisch für Big Data, dass es nicht auf die Korrektheit der Daten ankommt, sondern auf Reaktionsschnelligkeit. Solange alle Beteiligten auf dieselben Daten zurückgreifen, spielt die Qualität und Zuverlässigkeit der Information für die Gewinnchancen keine Rolle.
Textabgleichungen auf der Grundlage von Mustererkennung sind seit Weizenbaums ELIZA bekannt. Heutige Software zerlegt mittlerweile Sätze in einzelne Phrasen und berechnet blitzschnell die Wahrscheinlichkeiten für passende Antwortmuster auf gestellte Fragen oder passende Übersetzungen in andere Sprachen. Ein Beispiel für ein effizientes Übersetzungsprogramm war bereits VERBMOBIL.
2.3 Maschinen verstehen gesprochene Sprachen
VERBMOBIL war ein Projekt, das 1993–2000 vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) koordiniert wurde (Wahlster 2000). Im Einzelnen wurde die gesprochene Sprache über zwei Mikrofone den Spracherkennungsmodulen für Deutsch, Englisch oder Japanisch zugeleitet und einer Prosodieanalyse (Analyse der Sprachmetrik und -rhythmik) unterzogen. Auf dieser Grundlage wurden in einer integrierten Verarbeitung Bedeutungsinformationen berücksichtigt, die z. B. durch grammatikalische Tiefenanalysen von Sätzen und Regeln der Dialog verarbeitung gewonnen wurden. VERBMOBIL realisierte also den Weg von der umgangssprachlichen Spracherkennung bis zur Dialogsemantik von Gesprächen, die keineswegs auf den Austausch kurzer Sprachbrocken beschränkt blieben, sondern auch lange Redebeiträge beinhalteten, wie sie für spontane Sprache typisch sind.
Sprachverarbeitung durchläuft bei uns Menschen verschiedene Repräsentationsebenen. In technischen Systemen versucht man diese Schritte nacheinander zu realisieren. In der Computerlinguistik (Hausser 2014; Jurasky und Martin 2008; Mitkov 2003) wird diese Vorgehensweise als Pipelinemodell beschrieben:
Ausgehend von einer Schallinformation (Hören), wird im nächsten Schritt eine Textform erzeugt. Die entsprechenden Buchstabenketten werden dann als Wörter und Sätze erfasst. In der morphologischen Analyse werden Personalformen analysiert und Wörter im Text auf Grundformen zurückgeführt. In der syntaktischen Analyse werden die grammatikalischen Formen der Sätze wie Subjekt, Prädikat, Objekt, Adjektiv etc. herausgestellt, wie in den Chomsky-Grammatiken erläutert wurde. In der semantischen Analyse werden den Sätzen Bedeutungen zugeordnet, wie in den Tiefenstrukturen der Chomsky-Grammatiken durchgeführt wurde. Schließlich werden in einer Dialog- und Diskursanalyse die Beziehungen von z. B. Frage und Antwort, aber auch Absichten, Zwecken und Intentionen untersucht.
Wie wir später sehen werden, ist es für effiziente technische Lösungen keineswegs erforderlich, alle Stufen dieses Pipeline-Modells zu durchlaufen. Die enormen heutigen Rechenleistungen zusammen mit maschinellen Lern- und Suchalgorithmen eröffnen die Ausnutzung von Datenmustern, die für effiziente Lösungen auf allen Ebenen eingesetzt werden können. Dazu werden generative Grammatiken zur semantischen Analyse von Tiefenstrukturen kaum verwendet. Auch spielt die Orientierung an der semantischen Informationsverarbeitung des Menschen keine Rolle. Bei Menschen sind semantische Prozesse typischerweise mit Bewusstsein verbunden, was keineswegs notwendig ist:

Architektur von WATSON. (Aus Mainzer 2019; mit freundlicher Genehmigung von @Springer Verlag GmbH Deutschland 2022. All Rights Reserved)
WATSON orientiert sich nicht am menschlichen Gehirn, sondern setzt auf Rechenpower und Datenbankkapazitäten. Dennoch besteht das System den Turing-Test. Dazu passt sich eine Stilanalyse den Gewohnheiten des Sprechers oder Schreibers an. Personalisierung des Schreibstils ist daher keine unüberwindliche Schranke mehr.
WATSON bezeichnet mittlerweile eine Plattform von IBM für kognitive Tools und deren vielfältige
Anwendung in Wirtschaft und Unternehmen (http://www-05.ibm.com/de/watson/ abgerufen 14.11.21). Nach dem Mooreschen Gesetz werden die Leistungen von WATSON in absehbarer Zeit keinen Supercomputer benötigen. Dann wird eine App in einem Smartphone dieselbe Leistung erbringen. Wir werden uns schließlich mit unserem Smartphone unterhalten. Dienstleistungen müssen nicht mehr über ein Keyboard angefordert werden, sondern durch Sprechen mit einem intelligenten Sprachprogramm. Auch Unterhaltungen über unsere intimen Gefühle sind nicht auszuschließen, wie es Weizenbaum schon befürchtet hatte.
Der US-amerikanischen Science-Fiction-Film „Her“ von Spike Jonze aus dem Jahr 2013 handelt von einem introvertierten und schüchternen Mann, der sich in ein Sprachprogramm verliebt. Beruflich schreibt dieser Mann in Auftragsarbeit Briefe für Menschen, denen es schwerfällt, ihre Gefühle dem Gegenüber verständlich zu machen. Zur eignen Entlastung besorgt er sich ein neues Betriebssystem, das mit weiblicher Identität und angenehmer Stimme ausgestattet ist. Über Headset und Videokamera kommuniziert er mit Samantha, wie sich das System selber benennt. Samantha lernt schnell über soziale Interaktionen und verhält sich immer menschlicher. Während häufig geführten, langen und intensiven Gesprächen entwickelt sich schließlich eine intime emotionale Beziehung.
Der Einsatz von intelligenten Schreibprogrammen ist nicht nur in den Medien und im Journalismus denkbar, wenn es um Routinetexte von z. B. Wirtschaftsnachrichten, Sportberichten oder Boulevardmeldungen geht. Auch in der Verwaltung oder Rechtsprechung werden Routinetexte verwendet, die an Bots delegierbar sind. Wir werden den Einsatz automatischer Schreibprogramme auch in der Wissenschaft erleben. Die Produktion von Artikeln in Fachzeitschriften in Medizin, Technik- und Naturwissenschaften ist mittlerweile so gigantisch, dass sie selbst in Spezialgebieten der Forschung von den jeweiligen Experten nicht mehr im Detail gesichtet werden kann. Die Forschungsergebnisse müssen mit großer Schnelligkeit publiziert werden, um im Wettbewerb bestehen zu können. So ist es durchaus denkbar, dass Wissenschaftler/innen in den fachüblichen linguistischen Aufbau (z. B. eines Preprints) nur noch die Daten, Argumente und Ergebnisse eingeben, die ein Bot in passender Formulierung dem Schreibstil des Verfassers anpasst und über eine Datenbank publiziert.
Schreibroboter werden in der Finanzbranche zunehmend zum Alltag. Firmen wie „Narrative Science“ oder „Automated Insight“ setzen intelligente Software ein, um Daten der Quartalszahlen von Investmentbanken in Nachrichtentexte zu übersetzen. Solche Texte wurden früher von Reportern in mühsamen Quartalsberichten verfasst. Automaten erzeugen ein Vielfaches der früher von Menschen verfassten Berichte in Sekundenschnelle. Im Finanzsektor generieren Algorithmen blitzschnell Unternehmensprofile für Analyseabteilungen. Automatische Schreibprogramme können Kunden darüber informieren, mit welchen Strategien Fondsmanager Geld am Aktienmarkt investieren und wie sich die Fonds entwickeln. Versicherungsunternehmen benutzen intelligente Schreibprogramme, um die Vertriebsleistung zu messen und Empfehlungen für Verbesserungen zu erläutern. Automatisch erstellte Texte können Kunden bestätigen, ob sie mit ihrer Anlagestrategie richtig liegen. Unterstützung durch automatisierte Schreibprogramme schafft zudem mehr Zeit für individuelle Beratung von Kunden. Mit Robo-Advice dringt Künstliche Intelligenz zunehmend in der Anlageberatung und Vermögensverwaltung vor. Wenn mittlerweile neben Englisch auch Deutsch, Französisch und Spanisch als Sprachen zum Einsatz kommen, steigt der Anwendungsbereich. Der menschliche Anlageberater wird nicht ersetzt, aber das Tempo der digitalen Angebote ist sehr hoch und mit dem exponentiellen Wachstum der IT-Tools koordiniert.
2.4 Vom Machine Learning zur maschinellen Übersetzung mit DeepL & Co.
In einer globalen Welt wird eine unmittelbare Übersetzung in alle Sprachen zum Schlüssel der KI-Anwendung für eine weltweite Kommunikation. Tatsächlich zeichnet sich diese Möglichkeit durch das moderne Machine Learning mit exponentiell gewachsenen Rechnerkapazitäten ab. Historisch standen am Anfang zunächst regelbasierte Übersetzungsmethoden, die der logik- und regelorientierten ersten Phase der KI entsprachen. Bei einer direkten Sprachübersetzung werden die Wörter des Quelltextes in der Zielsprache mit einem Wörterbuch in gleicher Reihenfolge übersetzt. Danach werden im nächsten Schritt Satzstellungen und Flexionen der Zielsprache berücksichtigt. Bei der Transfermethode gibt es zwischen Analyse und Generierung der Übersetzung den Zwischenschritt des Transfers. Dabei wird aus der grammatischen Struktur des Quelltextes eine semantische Struktur abgeleitet, die anschließend in die Zielsprachen transferiert wird.
Von der regelbasierten maschinellen Übersetzung sind statistische Methoden zu unterscheiden. Sie traten mit dem Paradigmenwechsel in der KI auf, als sich das maschinelle Lernen auf der Grundlage statistischer Lerntheorie gegenüber regelbasierten Methoden durchsetzte. Die größere Effektivität statistischer Methoden hängt mit der Verarbeitung großer Datenmassen zusammen, die mit statistischen Methoden auf der Grundlage großer Rechenkapazität möglich werden. Dazu wird zunächst ein Wörterbuch erstellt, in dem Wörter und grammatische Formen in Quell- und Zielsprache ihrer Häufigkeit und gegenseitigen Nähe nach zugeordnet werden. Daraus lassen sich Grammatikübertragungsregeln extrahieren. Das Verfahren erinnert an Searles Gedankenexperiment vom Chinesischen Zimmer (Searle 1980), wonach Übersetzungen von Chinesisch in Englisch und umgekehrt auf der Grundlage eines Wörterbuchs mit Übersetzungsregeln durchgeführt werden, nun auf statistischer Grundlage. Seals Kritik trifft auch hier zu, dass bei dieser Übersetzung niemand Chinesisch oder Englisch „verstehen“ muss.
Was Searle nicht ahnen konnte, ist die verblüffende Effektivität dieser Methoden mit moderner Technik. Hier zeigt sich erneut eine typische Leitlinie für Technik und Ingenieurwissenschaften in der Neuzeit: Entscheidend ist vom ingenieurwissenschaftlichen Standpunkt der Erfolg einer Problemlösung und nicht die Ähnlichkeit zu einem kognitiven Verfahren, das von der Natur in der Evolution gefunden wurde. Die menschliche Kreativität kann zu neuen und unter bestimmten Umständen besseren Innovationen führen als die vorherige Evolution der Natur.
Ein Beispiel ist statistisches maschinelles Übersetzen, das mit technischen (künstlichen) neuronalen Netzen durchgeführt wird. Obwohl neuronale Netze an die Architektur menschlicher Gehirne erinnern, werden nur statische Korrelationen in großen Datenmassen algorithmisch ermittelt, ohne dass ein Verständnis der Sprachzusammenhänge notwendig wäre. Zudem sind die praktisch angewendeten neuronale Netze durch eine Explosion ihrer Parameter und Datenflüsse charakterisiert, die niemand im Detail durchschauen, geschweige denn kontrollieren kann. Am Ende zählt der Erfolg aufgrund eines Trainings der Netze durch große Datenmassen. Erfolg ohne Erklärung der Grenzen macht aber blind und ist risikoreich. Umso wichtiger ist es vom erkenntnistheoretischen Standpunkt, die internen Grenzen der einzelnen Methoden zu bestimmen, um ihr Potenzial ausschöpfen zu können.
Vom probabilistischen Standpunkt aus besteht eine Übersetzung darin, einen Zielsatz y zu finden, der die bedingte Wahrscheinlichkeit von y für einen gegebenen Quellsatz x maximiert. Formal wird dieser maximale Wert mit arg maxvp(y| x) bezeichnet (Cho et al. 2014; Sutskever et al. 2014). In der neuronalen maschinellen Übersetzung wird ein neuronales Netz als Übersetzungsmodell darauf trainiert, bedingte Wahrscheinlichkeiten von Satzpaaren zu maximieren. Dadurch wird die bedingte Verteilung von Satzpaaren mit maximaler Wahrscheinlichkeit erlernt. Mit diesem Übersetzungsmodell kann für einen gegeben Quellsatz die entsprechend Übersetzung in einem Suchprozess durchgeführt werden. Der Suchalgorithmus des Übersetzungsmodells bestimmt für einen gegebenen Quellsatz den Zielsatz, der die bedingte Wahrscheinlichkeit maximiert.
Die neuronale maschinelle Übersetzung benutzt ein Übersetzungsmodell, das aus zwei neuronalen Netzwerken besteht. Das erste neuronale Netz kodiert einen Quellsatz x in einen Vektor festgelegter Länge, der von einem zweiten neuronalen Netz zum Zielsatz y dekodiert wird. In diesem Kodierungs-Dekodierungssystem liest das Kodierungsnetz eine Folge von Vektoren in einen Vektor c ein. Dazu wird oft ein rückgekoppeltes (rekurrentes) neuronales Netz (RNN) benutzt, das im Unterschied zu Feedforward-Netzen Neuronen einer Schicht zu Neuronen derselben Schicht oder einer vorangehenden Schicht verbindet. Im menschlichen Gehirn kommt diese Bauweise tatsächlich im Neocortex vor. Für die „verborgenen“ (englisch: hidden) Zustände ht ∈ ℝn zur Zeit t in den Zwischenschichten zwischen Input- und Output-Schicht ist ht = f(xt, ht−1). Der Vektor
wird aus der Folge der verborgenen Zustände erzeugt. f und g sind nichtlineare Funktionen.





Statt RNN sind auch andere Netzwerkarchitekturen wie z. B. konvolutionale Netzwerke möglich, die im Deep Learning Anwendung finden (Kalchbrenner und Blunsom 2013). RNN-Netze bestehen aus voll- oder teilvernetzten Neuronen in mehreren Schichten. Diese Architektur ist für die Verarbeitung von Bildern begrenzt, da sie eine der Pixelanzahl entsprechende Zahl an Inputs benötigt. Die Anzahl der Schichten und Verbindungen untereinander wäre immens und nur von Computern mit gewaltiger Rechenleistung beherrschbar.
Ein konvolutionales (engl. convolutional bzw. deutsch „gefaltetes“) neuronales Netz (CNN) ist dem Aufbau der Sehrinde des menschlichen Gehirns nachempfunden. In den ersten Schichten erkennt es einfache Strukturen wie Linien, farbige Pixel oder Kanten. In den weiteren Schichten lernt es Kombinationen aus diesen Strukturen wie einfache Formen oder Kurven. Mit jeder Schicht können komplexere Strukturen erkannt werden. Die Daten werden in den Schichten immer wieder neu abgetastet und gefiltert. Im letzten Schritt werden die Ergebnisse den zu erkennenden Objekten zugeordnet.
Technisch werden dazu Faltungsschichten, Subsampling-Schichten und vollvernetzte Schichten unterschieden. Die Faltungsschicht kann in den Eingabedaten einzelne Merkmale erkennen und extrahieren. Bei der Bildverarbeitung kann es sich dabei um Linien, Kanten oder andere einfache Formen handeln. Die Verarbeitung der Eingabedaten wird durch Matrizen mit definierten Größen für Breite x Höhe x Kanäle dargestellt. Die Subsampling-Schicht verdichtet und reduziert die Auflösung der erkannten Merkmale. Dabei kommt die Pooling-Methode zum Einsatz, bei der überflüssige Information eliminiert und damit der Datenumfang vermindert wird. Dadurch kann zugleich die Berechnungsgeschwindigkeit gesteigert werden.
Abgeschlossen wird ein konvolutionales neuronalen Netz (CNN) durch eine vollständig vernetzte Schicht, die der Folge von Faltungs- und Subsampling-Schichten folgt. Alle Merkmale und Elemente, die in diesen vorgelagerten Schichten vorkommen, sind mit jedem Ausgabemerkmal verknüpft. Die vollständig vernetzten Neuronen können in mehreren Ebenen angeordnet sein. Umso größer die Anzahl der Objekte ist, die im neuronalen Netz unterschieden werden sollen, umso größer muss die Anzahl der Neuronen im CNN sein. CNNs sind für maschinelles Lernen im Bereich von Bild-, Audio- und Spracherkennung besonders geeignet. Wegen ihrer großen Anzahl von Schichten sind sie Beispiele des Deep Learning.
Konvolutionale neuronale Netzwerke erweisen sich als besonders erfolgreich beim semantischen Parsen, bei der Klassifizierung und Modellierung von Sätzen oder beim maschinellen Übersetzen (Bahdanau et al. 2016). Automatische Übersetzungssysteme wie Google Translate, Microsoft Translator oder Facebook verwendeten bisher rekurrente neuronale Netze (RNN). Demgegenüber wendet der deutsche DeepL-Übersetzer konvolutionale neuronale Netze (CNN) an und nutzt dazu die Leistung eines Supercomputers mit 5,1 PetaFLOPS. Ein wesentlicher Grund für die Anwendung von CNNs besteht darin, dass sie sich im Test als besser geeignet für die Verarbeitung für lange zusammenhängende Wortfolgen erwiesen (Coldewey 2017).
Die Gründer der Firma DeepL (Unternehmensregister 2021) bauten 2008 zunächst ein Wörterbuch für 25 Sprachen unter dem Titel Linguee auf, das mit Onlinedienst für Übersetzungen genutzt werden konnte. Damit konnten große Mengen von Trainingsdaten gesammelt werden. Zudem verarbeiten CNNs alle Wörter parallel und greifen dabei auf hoch optimierte Bibliotheken für die Berechnung zurück. Bei natürlicher Sprache hängt die Bedeutung von Wörtern vom Kontext des Satzes ab, in dem sie auftreten. Daher lesen rekurrente neuronale Netze (RNN) den ganzen Satz von vorne nach hinten und speichern in ihrem internen Zustand Informationen, um Wörter im richtigen Kontext zu übersetzen. In dieser Hinsicht arbeiten die konvolutionalen neuronalen Netzwerke ähnlich, berücksichtigen allerdings nur eine feste Menge von Inputs. Rekurrente Netze können demgegenüber im Prinzip mit beliebig langen Eingaben rechnen. Allerdings überwiegt der Geschwindigkeitsvorteil von CNNs, der durch parallele Rechnung entsteht.
Der entscheidende Vorteil eines konvolutionalen neuronalen Netzes ist ein Aufmerksamkeits-Mechanismus, der auf mehreren Ebenen gleichzeitig wirken kann. Zwar nutzt Google Translate auch einen solchen Mechanismus an der Schnittstelle zwischen Kodierungs- und Dekodierungsnetz, um sicherzustellen, dass sich die Bedeutung aller Wörter des Ursprungssatzes auch im übersetzten Satz findet. DeepL setzt allerdings einen Aufmerksamkeits-Mechanismus auf verschiedenen Ebenen gleichzeitig ein. Dadurch können die Netzwerke einzelne Aspekte der Wortbedeutung genauer extrahieren.
Ein weiterer Vorteil von DeepL ist der Einsatz eines Beam-Search-Algorithmus: Grundsätzlich berechnen neuronale Netze als Ouput eine Wahrscheinlichkeitsverteilung über alle möglichen Ausgaben. Dadurch wird es möglich, für jedes Wort des übersetzen Satzes immer das wahrscheinlichste nächste Wort zu wählen. Demgegenüber setzt DeepL einen Beam-Search-Algorithmus ein. Der Algorithmus multipliziert die Wahrscheinlichkeiten für alle möglichen Sätze, wählt aber in jedem Schritt nur eine kleine Gruppe wahrscheinlicher Sätze aus, die er um ein Wort verlängert. Dadurch kann DeepL gelegentlich auch ein eher unwahrscheinlicheres Wort wählen, wenn dadurch am Ende der übrige Satz besser zutrifft.
3 Sprachphilosophie und Künstliche Intelligenz
Am Beispiel der derzeitig besten maschinellen Übersetzungssysteme wie DeepL zeichnet sich eine Überlegenheit über menschliche Übersetzer ab, wenn Schnelligkeit und Umfang des Textes der Maßstab sind. Klar ist aber auch, dass dazu wie in Searles Gedankenexperiment des Chinesischen Zimmers kein „Sprachverständnis“ wie bei menschlichen Übersetzern notwendig ist. Große Trainingsdaten und raffinierte Algorithmen künstlicher neuronaler Netze reichen aus. Turings Test für Künstliche Intelligenz setzt auf Übersetzungsbeispiele, mit der sich eine KI gegenüber menschlicher Intelligenz „verrät“. Für maschinelle Übersetzungssysteme spielen deshalb Evaluation und skalierte Bewertungen der Übersetzungsqualität am Maßstab einer gleichzeitigen Übersetzung durch einen menschlichen Übersetzungsexperten eine entscheidende Rolle.
3.1 Qualitätsmaße für KI-Übersetzungen von Sprache
4 Punkte: sehr gut bis perfekt verständlich, keine Fehler
3 Punkte: gut verständlich mit ein bis zwei falschen Worten
2 Punkte: ungefähr verständlich, wenn man weiß, was gemeint war
1 Punkt: Satz wird anders verstanden, als er ursprünglich gemeint war, weil teilweise oder ganz
falsche Grammatikstrukturen verwendet werden.
0 Punkte: Satz ergibt keinen Sinn, weil übersetzte Wörter zufällig zusammengestellt scheinen.
3.2 Philosophie der idealen Sprache
Hier setzt auch im 21. Jahrhundert die Sprachphilosophie an, die seit ihren Anfängen nach dem Bezug von Sprache und Wirklichkeit, aber auch von Sprache, Kognition und Bewusstsein fragt. Da menschliche Kommunikation und Wissenschaft in Sprache formuliert ist, kam Anfang des 20. Jahrhunderts die Meinung auf, dass Sprachphilosophie das Fundament und die Voraussetzung für Erkenntnis überhaupt sei. Diese Auffassung bezeichnete R. Rorty als „linguistic turn“. Man könnte nun der Ansicht sein, dass die natürliche Sprache für wissenschaftliche Erkenntnis zu ungenau und durch formale Präzision zu ersetzen sei. Andererseits könnte das Ziel auch darin bestehen, die natürliche Sprache besser zu verstehen, um ihre Potenziale auszuschöpfen. Beide Auffassungen führten im 20. Jahrhundert zur Unterscheidung der Philosophie der idealen Sprache und Philosophie der normalen Sprache.
Historisch geht das Programm der idealen Sprache auf die Begründer der formalen Logik zurück. Hier ist vor allem G. Frege als Mathematiker, Logiker und Sprachphilosoph hervorzuheben (vgl. Artikel in diesem Band von Centrone und Kahle). In Freges Begriffsschrift werden Prädikate nach dem Vorbild der Mathematik als (Begriffs-)Funktionen verstand, die statt auf Zahlen nun auf Gegenstände aller Art zutreffen können. Die Funktionswerte wären unter gegebenen Bedingungen die beiden Wahrheitswerte einer Aussage, die wahr oder falsch sein kann. Das Ideal ist also, mit einer Präzision nach dem Vorbild der Mathematik die als ungenau und defizitär empfundenen (natürlichen) Sprachen zu reformieren.
Neben B. Russell hat vor allem sein Schüler L. Wittgenstein dieses Sprachideal in seinem „Tractatus logico-philosophicus“ vertreten (Wittgenstein 1964): „Die Welt ist alles, was der Fall ist,“ heißt es in der ersten These des Tractatus. „Was der Fall ist, die Tatsache“, so fährt Wittgenstein fort. „ist das Bestehen von Sachverhalten.“ Die sprachliche Abbildung einer so aufgebauten Welt wird in der folgenden These behandelt: „Das logische Bild der Tatsachen ist der Gedanke. Der Gedanke ist der sinnvolle Satz. Der Satz ist eine Wahrheitsfunktion der Elementarsätze.“
Frege, Russell und der frühe Wittgenstein hingen einer Abbildungstheorie der Sprache an. Einfache Sachverhalte werden in Elementarsätze abgebildet, komplexe Sachverhalte in logisch zusammengesetzten komplexen Sätzen. Im logischen Atomismus der Sprache spiegelt sich die Auffassung vom physikalischen Atomismus der Welt.
Im logischen Empirismus (R. Carnap u. a.) wurde dieses Sprachkonzept mit dem Anspruch verbunden, als (einziger) Maßstab für sinnvolle Aussagen zu dienen. Ein bescheidenerer Standpunkt beschränkt sich auf die Absicht, diejenigen Sätze einer natürlichen Sprache zu untersuchen, die sich in einer semantisch interpretierten Formel eines formalen Sprachkalküls übersetzen lassen. Neben den traditionellen Logikkalkülen können dazu auch Computersprachen herangezogen werden. So lassen sich z. B. die KI-Programmiersprachen Prolog und LISP zur philosophischen Sprachanalyse verwenden. Das war der frühe KI-Trend der 50er- und 60er-Jahre, der heute als symbolische KI (mit Blick auf die „symbolische“ Logik als Vorbild) benannt wird.
3.3 Philosophie der normalen Sprache
In der Philosophie der normalen Sprache sollen die natürlichen Sprachen in ihrer Eigentümlichkeit verstanden und nicht als korrekturbedürftig verändert werden (Kambartel und Stekeler-Weithofer 2005). Auch hier war es Wittgenstein, der seinen ursprünglichen Standpunkt der idealen Sprache als ungenügend kritisiert und aufgegeben hat. In der Sprache geht es nämlich nicht um das Benennen von Gegenständen, so als müsste jedem Ding eine Namenstafel angeheftet werden. Die Bedeutung eines Wortes zeigt sich vielmehr in seinem tatsächlichen Gebrauch in einer natürlichen Sprache. Die Regeln des jeweiligen Sprachgebrauchs sind, so lautet der neue Schlüsselbegriff Wittgensteins, in einem „Sprachspiel“ festgelegt. Man versteht also ein Wort, einen Satz, eine Sprachwendung, wenn man den jeweiligen Sprachgebrauch beherrscht. Wittgenstein vergleicht die Sprache mit einem Werkzeugkasten: Es sind da ein Hammer, eine Zange, eine Säge, ein Schraubenzieher, ein Maßstab, ein Leimtopf, Leim, Nägel und Schrauben.
Ein schwieriges klassisches Problem der sprachanalytischen Philosophie ist die Frage, wodurch wir Menschen befähigt werden, neue und unbekannte Sätze zu verstehen und die impliziten Sprachregeln aus Beispielen vieler Sätze zu lernen und abzuleiten. Vom Standpunkt der idealen Sprache und der symbolischen Repräsentation, die explizite und eindeutig formulierten Regeln voraussetzt, ist dieser Vorgang kaum zu verstehen. Eine natürliche Sprache lässt sich nicht auf regelbasiertes und programmierbares Wissen reduzieren.„Unsere Sprache kann man ansehen als eine alte Stadt: Ein Gewinkel von Gäßchen und Plätzen, alten und neuen Häusern mit Zubauten aus verschiedenen Zeiten; und dies umgeben von einer Menge neuer Vororte mit geraden und regelmäßigen Straßen und mit einförmigen Häusern.“
Die Beschränkungen regelbasierter KI-Expertensysteme werden auch im Fall der Sprache wirksam. Wir müssen bereits über intuitive Hintergrunderfahrung verfügen, um einzelne Sprachspiele verstehen zu können. Hintergrunderfahrung zeigt sich allerdings nach Wittgenstein nicht in der Fähigkeit, Erklärungen und Regeln zu reproduzieren, sondern dadurch, dass man ein Sprachspiel erlernen und beherrschen kann.
Für formale Idealsprachen ist eine Übersetzung in Kalküle und Programmiersprachen möglich, die programmgesteuerte Maschinen à la Turing antreiben. Wie steht es um die maschinelle Realisation von Sprachspielen einer natürlichen Sprache? Diesen Aspekt diskutiert Wittgenstein am Beispiel des Lesens. Lesen wird dabei nicht als das Verstehen des Sinns des Gelesenen verstanden, sondern als Tätigkeit, Geschriebenes oder Gedrucktes in Laute umzusetzen, nach Diktat zu schreiben, Gedrucktes abzuschreiben, nach Noten zu spielen, etc. Zwischen einem Anfänger und geübten Leser bestehen Unterschiede „im unbewussten Arbeiten ihres Geistes; aber auch im Gehirn“ (Wittgenstein 1967, Teil I, § 156).
Von einer Lesemaschine sagt Wittgenstein in dem Zusammenhang (Wittgenstein 1967, Teil I, § 157):„Aber liegt dies nicht nur an unserer zu geringen Kenntnis der Vorgänge im Gehirn und im Nervensystem? Wenn wir diese genauer kennten, würden wir sehen, welche Verbindungen durch das Abrichten hergestellt worden wären, und wir könnten dann, wenn wir ihm ins Gehirn sähen, sagen: „Dieses Wort hat er jetzt gelesen, jetzt war die Leseverbindung hergestellt.““
Auf der Grundlage statistischer Lerntheorie werden derzeit neuronale Netze trainiert, um aus großen Datenmassen allgemeine Sprachregeln zu lernen. Im Deep Learning ist die „Tiefe“ der Netze ebenso entscheidend wie der Umfang der Trainingsdaten. Der bemerkenswerte Unterschied technischer Netze zum menschlichen Sprachverständnis ist die Tatsache, dass z. B. Kinder mit wenigen Beispielen sehr schnell komplexe Sprachspiele verstehen können. Mit der Devise des menschlichen Gehirns „Klasse statt Masse“ stößt auch das erfolgreiche statistische Machine Learning an seine Grenzen.„Erst nachdem dies und dies an der Maschine geschehen war – die und die Teile durch Drähte verbunden worden wären – hat die Maschine gelesen …“
Mit seinen Sprachspielen betont Wittgenstein den Handlungscharakter von Sprache und Verstehen. J.L. Austin unterschied deshalb verschiedene Aspekte von Sprechakten (Austin 1972). Mit einer Äußerung soll nicht nur etwas gesagt, sondern zugleich getan und bewirkt werden. Austin unterscheidet, wie oben ausgeführt, den lokutionären, illokutionären und perlokutionären Akt einer Äußerung: Mit der Äußerung „Fahr langsam!“ hat der Sprecher gesagt, dass die angesprochene Person langsam fahren soll (Lokution). Diese Äußerung ist zugleich ein Rat oder Befehl (Illokution) und gegebenenfalls eine Überzeugung, dass die Person den Wagen langsam fahren soll (Perlokution).
Einige Äußerungen sind gezielt performativ gemeint, d. h. der Sprecher zielt auf den illokutionären Akt seiner Äußerung: „Verhalte Dich gemäß der Straßenverkehrsordnung!“. Eine performative Äußerung ist weder wahr noch falsch. Sie wird danach beurteilt, ob sie unter gegebenen Bedingungen gelingt oder nicht. Die maschinelle Erfassung von Sprechakten ist wesentlich für die Mensch-Maschine Kommunikation. Sie kann beim autonomen Fahren ebenso zur Anwendung kommen als auch in der Kommunikation mit Robotern oder im Internet der Dinge, in dem Menschen mit Dingen (z. B. Smartphone, Infrastrukturen) sprechen.
3.4 Sprache, Realität und KI
Natürliche Sprachen beziehen sich auf die physische Außenwelt. Aber wie? In der KI kann z. B. ein Roboter mit seiner Außenwelt kommunizieren oder ein menschlicher Fahrer mit einem teilweise oder vollständig autonomen Fahrzeug. Wenn dabei eine KI nicht nur sprachliches Handeln simulieren, sondern Sachverhalte und Situationen mit sprachlichen Äußerungen beurteilen soll, dann muss verstanden sein, wie sich Sprache beim Menschen auf die Außenwelt bezieht, um es in der KI nachzubauen. In der Sprachphilosophie wurde traditionell z. B. ein Name mit einem physischen Gegenstand verbunden, der als seine Bedeutung verstanden wird. Das ist aber in natürlichen Sprachen nicht immer eindeutig. Von Frege stammt das bekannte Beispiel, dass die Namen „Abendstern“ und „Morgenstern“ dieselbe Bedeutung, nämlich die Referenz auf den Planeten Venus besitzen. Ein Roboter müsste dazu wie ein Mensch Hintergrundwissen über das Planetenmodell und den unterschiedlichen Kontext des Auftretens dieses Planeten haben. In der Sprache von Frege müsste dieser Roboter zwischen „Bedeutung“ und „Sinn“ unterscheiden können.
In der analytischen Sprachphilosophie gab es ausführliche Analysen und Alternativvorschläge für den Ansatz von Frege, die von z. B. B. Russell über S. Kripke bis zu H. Putnam u. a. reichen. Viele sprachliche Ausdrücke (z. B. logische Verknüpfungen, grammatische Funktionen) scheinen sich aber auf nichts in der physischen Außenwelt zu beziehen. Das erinnert einerseits an mathematische Formeln in der Physik, in denen nur Messwerte, aber keine theoretischen Terme einen direkten Bezug zu Beobachtungen der physischen Welt besitzen.
In den natürlichen Sprachen zeigt sich, dass die Bedeutung eines Ausdrucks kein Gegenstand ist, sondern durch den Gebrauch des sprachlichen Zeichens gebildet ist. Mit Blick auf aktuelle Robotik und KI-Forschung ist in der analytischen Sprachphilosophie der Ansatz von W.v.O. Quine bemerkenswert. In der Tradition des englischen Sensualismus beginnt die Erkenntnis nicht mit den äußeren physischen Gegenständen, sondern wird durch Signale der Sinnesrezeptoren ausgelöst, die vom Gegenstand empfangen werden (Quine 1980, S. 67). Quine konnte dazu bereits auf empirische Forschungen der Sinnesphysiologie zurückgreifen, die heute technisch in der Robotik umgesetzt werden. Dass Beobachter in ihren Urteilen bei der Erkenntnis eines Gegenstands übereinstimmen, begründet Quine mit neurobiologischen und evolutionstheoretischen Argumenten: Er geht von gemeinsamen Reizstandards ähnlicher Gegenstände aus, die im gemeinsamen Genpool einer Spezies verankert sind. Dieses Argument greift zu kurz, da es nicht erklären kann, warum Menschen eine Vielzahl neuer Gegenstände im Laufe ihres Lebens übereinstimmend erkennen, ohne dass sie vorher genetisch verankert wurden.
Maschine learning ermöglicht das Trainieren und Lernen immer neuer Datenmuster, die auch von einem Roboter realisiert werden können. Technische Ähnlichkeitsmaße der Muster führen dann zu übereinstimmenden Beurteilungen der Außensituation durch verschiedene Roboter. Die Datenmuster können auch so interpretiert werden, dass sich die Roboter (bis auf Ähnlichkeitsmaße) gemeinsame „interne Bilder“ eines Gegenstands bzw. eines Sachverhalts machen, denen Beobachtungssätze zugeordnet werden können. Dazu muss man aber nicht Anhänger einer mentalistischen Sprachphilosophie sein, nach der die Bedeutung eines Wortes ein „geistiger“ Gegenstand (z. B. eine platonische Idee oder ein psychisches Erlebnis) ist und die von Quine heftig kritisiert wird (Quine 1969). Andererseits ist ein Datenmuster im Machine Learning nicht einfach eine Anhäufung von Daten, sondern statistisch korreliert und hat in dem Sinn eine (statistische) Bedeutung, die im Roboter bestimmte Entscheidungen und Handlungen auslösen kann. Dass die entsprechenden sprachlichen Ausdrücke nicht alle Details der komplexen Datenmuster erfassen, ist offensichtlich. In diesem Sinn bleibt Sprache, wie Quine betont, durch empirische Daten „unterbestimmt“.
Den Spracherwerb führt Quine behavioristisch auf Imitation des Verhaltens von anderen Menschen, die wiederum das Verhalten anderer Menschen erkennen, imitieren und korrigieren. Nach Quine entstehen Bedeutungen durch Sprachverhalten. Sie existieren also nicht davon unabhängig. Bemerkenswert mit Blick auf automatische Übersetzungen ist Quines Erklärung von Übersetzungen fremder Sprachen. Auch hier gibt es nur die Beobachtung des Sprachverhaltens: Durch Beobachtung werden Zusammenhänge zwischen Gegenständen und Ereignissen mit den Lauten von Sprechern und schriftlichen sprachlichen Äußerungen hergestellt, ausgetestet und korrigiert. Allerdings, so hebt Quine hervor, ist die Frage, welche Übersetzung die beste sei, prinzipiell nicht beantwortbar. Hier spricht Quine von der Indeterminiertheit von Übersetzungen (Quine 1969, S. 29–42). Diese Erklärung verträgt sich mit den Übersetzungsverfahren des Machine learning wie z. B. DeepL.
Gegenüber dem statistischen Lernen aus großen Datenmassen, die das Machine Learning ermöglichen, können kompetente menschliche Sprecher einer Sprache sofort neue Sätze verstehen. D. Davidson (1967), einflussreicher analytischer Sprachphilosoph und Schüler von Quine, postulierte dazu einen kompositionalen Aufbau der Sprache, der die Bedeutung eines Satzes mit der Bedeutung seiner Teile und ihrer Zusammensetzung bestimmt. Verstehen setzt also eine ganzheitliche Auffassung von Sprache voraus. Was den Bezug natürlicher Sprachen zur Wirklichkeit betrifft, orientierte sich Davidson an der Wahrheitstheorie, die A. Tarski für formale Sprachen entwickelt hatte. Die ganzheitliche Auffassung von Sprache reicht mit der Bedingung, dass die Theorie der Wahrheit (im Sinne Tarskis) gesetzmäßig ist, aus, um die Indeterminiertheit (Unbestimmtheit) so zu reduzieren, dass Menschen sich verstehen können.
Vergleicht man die Ansätze der Sprachphilosophie mit den Methoden der KI, so wird erneut deutlich, dass Technik sich keineswegs am menschlichen Vorbild orientieren muss, um erfolgreich zu sein. Allerdings beschränkt sich dann der technische Erfolg nur auf bestimmte Aspekte (z. B. der Sprachübersetzung) und kann keineswegs beanspruchen, den Menschen zu ersetzen.