[30] 3. Kognition als Aktivität in neuronalen Netzen

Methodologisch war die Kognitionswissenschaft unter dem Einfluss des Computermodells und der Vorherrschaft der klassischen KI zunächst von einem Top-down-Ansatz geprägt, der in computationalen Modellen seinen Ausgang nahm und erst über die algorithmische Zergliederung kognitiver Leistungen zu Fragen ihrer Implementation voranschritt. Anfänglich lag das Augenmerk daher auf deterministischen Problemen, für die sich eine entsprechende computationale Analyse anbietet, weil Anfangs- und Zielzustand klar definiert und die Problemlöseoperatoren überschaubar sind, zum Beispiel deduktives Schließen, Theorembeweisen oder die Lösung von Aufgaben wie dem Turm-von-Hanoi-Problem. Da Menschen bei der Anwendung logischer Schlussregeln und systematischen Suchen in großen Problemräumen schnell an ihre Grenzen stoßen, waren die immer leistungsstärkeren und spezialisierten digitalen Computer auf diesen Gebieten, die Menschen tendenziell eher schwerfallen, bald überlegen. Umgekehrt jedoch kamen sie sehr viel schlechter mit unvollständigem, mehrdeutigem und vagem Input zurecht und hatten Schwierigkeiten bei Generalisierungen (Induktion) und der Hypothesenbildung (Abduktion), sodass sie beispielsweise im Hinblick auf Leistungen wie Wahrnehmung, Kategorisierung oder die Verarbeitung natürlicher Sprache, die dem Menschen in der Regel vergleichsweise leichtfallen, dem Gehirn deutlich unterlegen waren.

Der Alleinigkeitsanspruch des Kognitivismus wurde untergraben, als in den 1980er-Jahren ein alternativer Bottom-up-Ansatz Erfolge zu feiern begann, der das Computermodell in seiner klassischen Form für physiologisch unrealistisch hielt und davon ausging, dass das Gehirn bei einigen Leistungen gerade deshalb im Vorteil ist, weil es keine sequenzielle [31] Symbolverarbeitung im Stile digitaler Computer betreibt. Statt aus computationalen Modellen gewonnene Regeln und Repräsentationen explizit in seriellen Systemen symbolisch zu codieren, setzte man unter dem Stichwort Parallel Distributed Processing (PDP)33 in Anlehnung an informationsverarbeitende Strukturen im Gehirn auf parallel arbeitende Systeme, die sich die erforderlichen Regeln und Repräsentationen aufgrund ihrer Organisation implizit selbst aneignen. Diese sogenannten künstlichen neuronalen Netze sind hochgradig vernetzte Verbünde einfacher Verarbeitungseinheiten, die wie natürliche Neurone einen gewissen Aktivierungsgrad aufweisen und in Analogie zu deren synaptischer Aktivität andere Einheiten über gewichtete Verbindungen (connections) aktivieren oder hemmen können. Konnektionistische Systeme dieser Art können durch gezielte Anpassung ihrer Verbindungsgewichtungen anhand von Beispielen unter anderem lernen, Gesichter zu erkennen, Vergangenheitsformen von Verben zu bilden oder einfache Grammatikregeln zu verstehen.34 Sie machen dabei ausschließlich von ihrer Struktur, den Eigenschaften der Verarbeitungseinheiten, den Verbindungsgewichtungen und der Dynamik der sich daraus ergebenden Aktivierungsmuster Gebrauch und müssen nicht wie GOFAI-Systeme auf vorgegebene Problemlöseoperatoren oder Kategorien zurückgreifen.

Schon im 19. Jahrhundert nahmen Alexander Bain und William James ein wichtiges Prinzip des Lernens in neuronalen Netzen vorweg, indem sie Lernen auf einen Assoziationsprozess zurückführten, der durch wiederholte Aktivierung die Verknüpfung zwischen Gehirnprozessen verstärkt (s. u.). In der Praxis trug diese Idee jedoch erst in der zweiten Hälfte des 20. Jahrhunderts Früchte. In den 1940er-Jahren beschrieben McCulloch und Pitts stark vereinfachte, binär arbeitende Neuronenmodelle, die inaktiv bleiben, solange sie ausdrücklich gehemmt werden oder die Summe ihrer Eingangswerte (je null oder eins) unter einem Schwellenwert bleibt, und erst aktiv werden, wenn dieser Schwellenwert überschritten wird. [32] Solche McCulloch-Pitts-Zellen können logische Operationen ausführen (eine Zelle mit Schwellenwert zwei und zwei Eingängen zum Beispiel implementiert ein und) und zu leistungsstarken Netzen verbunden werden.35

1958 stellte der Psychologe und Informatiker Frank Rosenblatt ein einschichtiges McCulloch-Pitts-Netz vor, das durch die flexible Gewichtung seiner Eingangs- und Schwellenwerte einen reellen Eingabevektor in einen binären Ausgabewert überführte und so als einfacher linearer Klassifikator diente, der seinen Input in zwei Klassen einteilt.36 Dieses sogenannte Perzeptron findet die »richtigen« Gewichtungen mithilfe von Lernregeln anhand von Beispielen selbst heraus. Eine einfache, biologisch plausible Lernregel ist zum Beispiel die Hebb-Regel, wonach sich synaptische Verknüpfungen zwischen wiederholt gleichzeitig aktiven Neuronen verstärken.37 Dieses Prinzip wird in künstlichen neuronalen Netzen verwendet, um die Gewichtungen so anzupassen, dass Verbindungen zwischen ähnlich aktiven Zellen mehr Gewicht und damit zukünftig größeren Einfluss auf die Aktivität des Netzes erhalten.

Spätestens mit Rosenblatt waren die Grundgedanken des modernen Konnektionismus im Wesentlichen artikuliert: Er hielt die Analogie zum digitalen Computer für biologisch unrealistisch und das Perzeptron für ein adäquateres Modell der Arbeitsweise des Gehirns, stellte statistische Korrelationen, Mustererkennung und Lernen über die Anwendung logischer Regeln und setzte auf parallel arbeitende neuronale Netze, die Information nicht mehr symbolisch, sondern durch komplexe Aktivierungsmuster repräsentieren. Allerdings zeigten Marvin Minsky und Seymour Papert in einer detaillierten mathematischen Analyse, dass der Trainingsaufwand von Perzeptronen schon bei einfachen Problemen kombinatorisch explodiert und sie wie McCulloch-Pitts-Zellen zwar vierzehn der sechzehn möglichen zweistelligen aussagenlogischen Operatoren realisieren können, aber nicht in der Lage sind, das ausschließende oder und seine Negation zu lernen.38 [33] Zwar lässt sich diese Schwierigkeit mit mehrschichtigen Perzeptronen leicht beheben (ein ausschließendes oder zum Beispiel kombiniert oder und und so, dass das und das oder hemmt, wenn beide Eingänge aktiv sind), die Kritik von Minsky und Papert war jedoch so einflussreich, dass der Konnektionismus erst ab Mitte der 1980er-Jahre im Anschluss an die Arbeiten von David Rumelhart, John McClelland und ihren Kollegen zu mehrschichtigen neuronalen Netzen (wieder) eine ernst zu nehmende Alternative zum Kognitivismus wurde.

Mehrschichtige Netze bestehen aus einer Eingabe-, einer Ausgabe- und mindestens einer dazwischenliegenden verdeckten Schicht miteinander verbundener Einheiten (Knoten), die ihren Input mittels einer (oftmals nichtlinearen) Funktion aufsummieren, wobei jede Verbindung (Kante) individuell gewichtet wird. Nach einer Normierung durch eine sogenannte Transferfunktion ergibt sich daraus die positive oder negative Aktivität einer Einheit. Auf der Ausgabeschicht dient diese Aktivität als finaler Output, Einheiten anderer Schichten geben sie an die mit ihnen verbundenen Einheiten weiter und wirken dadurch aktivierend oder hemmend auf diese ein. In Feedforwardnetzen breitet sich die Aktivität dabei ausschließlich von der Eingabe- zur Ausgabeschicht aus, in Feedback- oder rekurrenten Netzen gibt es auch Verbindungen zu Einheiten derselben oder einer früheren Schicht.39

Wie ein einfaches Perzeptron passen solche Netze während einer Trainingsphase zunächst zufällige Verbindungsgewichtungen inkrementell an, bis sie eine bestimmte Menge von Eingabevektoren (die je nach Aufgabe für Buchstaben, Gesichter, Verben usw. stehen) hinreichend verlässlich in den entsprechenden Output, das heißt die gewünschten Kategorien (zum Beispiel Konsonanten und Vokale, Frauen und Männer, unterschiedliche Vergangenheitsformen), überführen können. Ist eine passende Gewichtungsverteilung gefunden, hat ein Netz diese Kategorien »gelernt« und kann sie auf unbekannte Exemplare desselben Typs übertragen.

[35] Beim unüberwachten Lernen werden die Gewichtungen mittels einer allgemeinen Lernregel wie der Hebb-Regel angepasst, beim überwachten Lernen werden sie durch automatisierte Verfahren gezielt optimiert. Der ebenfalls Mitte der 1980er-Jahre wiederentdeckte Backpropagationsalgorithmus (auch Rückpropagierung genannt) etwa vergleicht den Output, den ein Netz für einen Beispielvektor ausgibt, mit dem erwünschten Output und errechnet aus der Differenz einen Fehlerwert, der im Netz »zurückpropagiert« und dazu verwendet wird, die Gewichtungen so anzupassen, dass sich die Differenz zwischen dem tatsächlichen und dem erwünschten Output verringert. Mithilfe eines großen Beispielkorpus und entsprechend vielen Iterationen dieses Prozesses wird der Fehlerwert so lange optimiert, bis das Netz einen stabilen Zustand erreicht, in dem es die intendierte Zielfunktion hinreichend genau gelernt hat und die gewünschten Kategorisierungen vornehmen kann.40

Terence Sejnowskis und Charles Rosenbergs Netz NETtalk zum Beispiel überführte geschriebenen englischen Text in gesprochenes Englisch, indem es den 26 Buchstaben des englischen Alphabets je eines von 79 Phonemen der englischen Sprache zuordnete (vgl. zum Beispiel die unterschiedliche Aussprache von »ou« und »gh« in »cough«, »dough«, »through« und »thought«!). Seine Ausgabeschicht hatte 26 Einheiten, die verschiedene Aspekte der 79 Phoneme codierten und über ein Soundsystem die Aussprache steuerten. Die verdeckte Schicht hatte 80 Einheiten, die Eingabeschicht sieben Gruppen mit je 29 Einheiten (für 26 Buchstaben sowie drei Satz- bzw. Leerzeichen), wovon die mittlere Gruppe für das auszusprechende Zeichen und die anderen sechs für den Kontext der je drei Zeichen links und rechts davon standen. Die insgesamt 18.629 Verbindungen wurden mittels Backpropagation gewichtet, bis das Netz bei einem Beispielkorpus von 1024 Worten nach nur 50 Durchgängen 95 Prozent der Grapheme richtig aussprach. Für unbekannten Text sank die Erfolgsquote zunächst auf 78 Prozent, konnte durch weiteres [35] Training, größere Beispielkorpusse oder elf statt sieben Eingabegruppen aber wieder auf über 95 Prozent gesteigert werden. Was bei einer klassischen Software mehrere Mannjahre an Programmierarbeit, eine Vielzahl konditionaler Ausspracheregeln und eine riesige Datenbank individuell erfasster Ausnahmen erfordert hatte, leistete NETtalk in kürzester Zeit, indem es selbstständig Kategorien wie Vokale oder Konsonanten sowie die phonetische Bedeutung von Wort- und Satzgrenzen »entdeckte« und Regeln der Graphem-Phonem-Zuordnung samt deren Ausnahmen »lernte«.41

Üblicherweise geht es bei kognitiven Leistungen jedoch nicht nur um die einmalige Klassifikation eines isolierten Inputs, sondern vor allem auch um den kontinuierlichen Umgang mit zeitlich strukturierten Phänomenen. Sprachverständnis zum Beispiel setzt die Verarbeitung voneinander abhängiger Wort- und Satzfolgen voraus, die Koordination von Bewegungen erfordert kontinuierliche Abfolgen von Motorbefehlen usw. Feedforwardnetze sind dafür ungeeignet, weil sie jeweils nur einen einzelnen Eingabevektor kategorisieren können und dann auf weiteren Input angewiesen sind (die Abfolge der Phoneme bei NETtalk etwa ist allein der Reihenfolge der Grapheme geschuldet, das Netz selbst ordnet immer nur ein Graphem einem Phonem zu). Damit neuronale Netze strukturierte Sequenzen erkennen bzw. generieren können, müssen sie über eine Art »Kurzzeitgedächtnis« verfügen, sodass ihre Aktivität nicht nur den aktuellen Input, sondern auch ihre früheren Zustände berücksichtigen kann. Die Rückkoppelungsstruktur rekurrenter Netze ermöglicht genau das, denn durch ihre zusätzlichen Feedbackschleifen können sie eine einmal vorhandene Aktivität auch dann wiederverwerten, wenn sie aktuell keinen neuen Input erhalten. Sogenannte Elman-Netze (einfache rekurrente Netze) zum Beispiel können ihren Zustand in einer Art Zwischenspeicher hinterlegen, indem ihre Eingabeschicht um Kontextzellen erweitert wird, die jeweils mit einer Einheit der verdeckten Schicht verbunden sind und deren Aktivität übernehmen, [36] um sie beim nächsten Verarbeitungstakt mit dem neuen Input (sofern es welchen gibt) wieder an die verdeckte Schicht zurückzugeben.42

Der Konnektionismus distanzierte sich von einigen Aspekten des Kognitivismus, gab das Computermodell aber nicht vollends auf: Neuronale Netze arbeiten zwar parallel und nicht wie digitale Computer seriell, sind aber dennoch Computer, das heißt »Berechner«, und Kognition ist nach wie vor Informationsverarbeitung, nämlich die Überführung von Eingabe- in entsprechende Ausgabevektoren. Allerdings vertraut der Konnektionismus statt auf algorithmische Operationen und globale sprachlich-logische Transformationsregeln auf numerische Operationen in Gestalt individuell angepasster Summen- und Schwellenwertfunktionen, die lokal die Aktivität der Einheiten und die Gewichtung der Verbindungen berechnen. Anders als GOFAI-Systeme sind neuronale Netze auch nicht auf top-down gewonnene explizite Regeln angewiesen, sondern entdecken die für sie relevanten Prinzipien bottom-up, indem sie durch ihre Organisation und geeignetes Training auf implizite statistische Regelmäßigkeiten in ihrem Input reagieren.

Darüber hinaus arbeitet der Konnektionismus statt mit statischen symbolischen Repräsentationen mit dynamischen Aktivierungsmustern, deren atomare Komponenten nur subsymbolische Bedeutungen haben. Lokale Repräsentationen, etwa Einheiten der Eingabeschicht, die sich eindeutig einem Input zuordnen lassen (bei NETtalk zum Beispiel entspricht jede der je 29 Eingabeeinheiten einem Graphem), sind in konnektionistischen Systemen die Ausnahme. Abstraktere Merkmale (zum Beispiel die Unterteilung in Vokale und Konsonanten oder Graphem-Phonem-Regeln) werden üblicherweise durch komplexe Aktivierungsmuster, sogenannte verteilte Repräsentationen (distributed representations), eingefangen. Da diese sich über viele Einheiten erstrecken, die umgekehrt in mehrere Repräsentationen eingehen (bei NETtalk etwa waren bei jedem der 29 Inputs im Schnitt 20 [37] Prozent der verdeckten Einheiten aktiv), ist der semantische Beitrag einzelner Einheiten zu verteilten Repräsentationen nicht mehr zu identifizieren: Sie stehen nicht für sprachlich fassbare Makroeigenschaften, sondern für grundlegende Strukturmerkmale (microfeatures). Aus diesem Grund handelt es sich dabei um Repräsentationen subsymbolischer oder vorbegrifflicher Art, die erst im Zusammenspiel mit anderen atomaren Einheiten symbolisch beschreibbare semantische Gehalte hervorbringen.43

Mit der Verwendung rekurrenter Netze verabschiedet sich der Konnektionismus zudem von stabilen repräsentationalen Strukturen, die gespeichert, wieder abgerufen und weiterverarbeitet werden können. Da die Aktivität solcher Netze immer auch von ihren vorangegangenen Zuständen abhängt, lassen sich höherstufigen Merkmalen keine eindeutigen Aktivierungsmuster zuordnen: Jedes Vorkommnis erfährt eine individuelle, von der bisherigen Aktivität abhängige Repräsentation, sodass diskrete repräsentationale Verarbeitungsschritte durch eine kontinuierliche Dynamik abgelöst werden, deren informationsverarbeitendes Potenzial wesentlich auch in der Art und Weise liegt, wie der aktuelle Zustand eines Systems dessen zukünftige Entwicklung bedingt (s. Kap. 4).44

Natürliche Neurone sind in ihrem Aufbau und ihrer Arbeitsweise komplexer und vielfältiger sowie über ihre Dendriten und Axone in der Regel stärker vernetzt als die Einheiten eines künstlichen neuronalen Netzes, denen sie als Vorbild dienen. Dennoch bilden neuronale Netze die hochgradig vernetzte Verbundstruktur des Gehirns besser ab als seriell arbeitende GOFAI-Systeme. Im Zusammenhang mit derartigen Überlegungen zur biologischen Plausibilität des Konnektionismus wird manchmal auch auf die sogenannte 100-Schritte-Bedingung verwiesen: Da natürliche Neurone in der Größenordnung von Millisekunden operieren und kognitive Leistungen wie Wahrnehmung, Kategorisierung oder Sprachverarbeitung üblicherweise nur Sekundenbruchteile in [38] Anspruch nehmen, dürften neuronal implementierte serielle Lösungen der entsprechenden Probleme kaum mehr als hundert einfache Programmschritte erfordern. Das ist jedoch selbst in den einfachsten Fällen unwahrscheinlich, und daher müssen Systeme, die zu solchen Leistungen fähig sind, Informationen offenbar parallel verarbeiten.45

Neuronale Netze sind auch flexibler und robuster als serielle Systeme. Zum einen kommen sie als Experten für Mustererkennung und -vervollständigung sehr gut mit verrauschten Daten und daher mit dem mehrdeutigen, vagen oder unvollständigen Input zurecht, der jenseits künstlich optimierter Mikrowelten die Regel ist. Zum anderen können sie über die Gewichtungsverteilung des ganzen Netzes den Ausfall einzelner Einheiten kompensieren. Unter suboptimalen Bedingungen lässt ihre Leistungsfähigkeit daher zwar nach, sie bleiben grundsätzlich aber erst einmal funktionsfähig (graceful degradation), während klassische Systeme unter vergleichbaren Bedingungen schnell komplett versagen (catastrophic failure). Schließlich sind neuronale Netze anders als klassische Systeme ausgezeichnete Generalisierer.46 Sie können zum Beispiel lernen, Stühle zu erkennen, obwohl es für Stühle keinen abstrakten Kriterienkatalog in Gestalt individuell notwendiger und zusammen hinreichender Bedingungen der Art gibt, wie ihn klassische Systeme erfordern, indem sie anhand von Beispielen höherstufige Regularitäten entdecken und diese Muster dann auf nicht prototypische Instanzen übertragen.

Searle hat gegen den Konnektionismus eingewendet, die bloße Tatsache, dass parallel gearbeitet wird, ändere nichts daran, dass syntaktische Prozesse allein keine Bedeutung hervorbringen können (s. Kap. 2): Wenn sich im Chinesischen Zimmer statt einer einzelnen Person mit einer Bibliothek von Anweisungen eine Gruppe von Leuten befindet, die so interagieren, dass sie ein neuronales Netz imitieren, dann, so Searle, sprechen deswegen trotzdem weder die einzelnen Mitglieder noch die Gruppe als Ganzes Chinesisch.47 Dieser [39] Einwand übersieht allerdings, dass der Konnektionismus nicht einfach eine alternative Implementierung einer Software ist, sondern mit einer anderen, biologisch realistischeren Hardware arbeitet, von der keinesfalls klar ist, dass auch ihr jene Kausalkräfte fehlen, die das menschliche Gehirn angeblich zu echter »intrinsischer« Intentionalität befähigen.

Andere werfen dem Konnektionismus vor, er widerspreche einer realistischen Interpretation propositionaler Einstellungen und damit der Alltagspsychologie, die voraussetze, dass Überzeugungen, Wünsche usw. funktional diskrete, semantisch interpretierbare und kausal wirksame Zustände (zum Beispiel in einer Sprache des Geistes) sind.48 Da der Konnektionismus mit seinen dynamischen Aktivierungsmustern und verteilten Repräsentationen für solche Zustände offenbar keinen Raum lässt, wäre die Konsequenz eine für viele inakzeptable Elimination der Alltagspsychologie. Einerseits ist die Alltagspsychologie jedoch keineswegs unumstritten49, andererseits ist auch nicht ausgeschlossen, dass sich zum Beispiel mittels Clusteranalysen in neuronalen Netzen die geforderten höherstufigen begrifflichen Strukturen finden lassen.50

Fodor und Zenon Pylyshyn identifizieren in ihrer Kritik am Konnektionismus zum einen eine Reihe vermeintlicher Probleme klassischer Systeme, zum Beispiel die 100-Schritte-Bedingung, ihre Schwierigkeiten bei der Mustererkennung und anderen nichtsprachlichen Leistungen, ihre geringe Fehlertoleranz oder ihre biologische Unangemessenheit. Da diese Probleme aber entweder ausschließlich Merkmale betreffen, die nicht per se charakteristisch für GOFAI-Systeme sind oder nur für derzeit gebräuchliche digitale Computer Bestand haben, lässt sich daraus ihrer Meinung nach jedoch kein Argument für die Überlegenheit des Konnektionismus ableiten.51

Zum anderen werfen sie umgekehrt dem Konnektionismus vor, er könne mit seinem Fokus auf Mustererkennung und Assoziation höherstufige begriffliche Leistungen nicht [40] einfangen und insbesondere der Tatsache nicht Rechnung tragen, dass sich die atomaren Komponenten von Sprache und Denken systematisch zu größeren bedeutungstragenden Einheiten kombinieren lassen (sodass zum Beispiel jemand, der glaubt, dass Paul Anna liebt, auch glauben kann, dass Anna Paul liebt, und jemand, der die Ausdrücke »rot« und »Auto« verwenden kann, auch den Ausdruck »rotes Auto« zu bilden imstande ist; s. Kap. 2). Die dynamischen und verteilten Repräsentationen des Konnektionismus, so Fodor und Pylyshyn, können diese Systematizität und Kompositionalität weder garantieren noch erklären.52 Allerdings ist weder klar, dass der Kognitivismus eine bessere Erklärung anzubieten hat, noch lässt sich die Möglichkeit einer subsymbolischen Erklärung von Systematizität definitiv ausschließen.53

Kognitivismus und Konnektionismus sind letztlich verschiedene, aber nicht grundsätzlich unverträgliche Varianten des Computermodells (schließlich sind künstliche neuronale Netze in digitalen Computern implementiert), die mit unterschiedlichen Arten von Berechnungsprozessen und Repräsentationen arbeiten. Da sich ihre Stärken und Schwächen im Wesentlichen ergänzen, liegt es nahe, sie in sogenannten hybriden Architekturen zu vereinen.54 Auch im Hinblick auf die anderen Aspekte der traditionellen Auffassung von Kognition (s. Kap. 1) unterscheiden sie sich kaum: Für beide ist Wahrnehmen etwas anderes als Handeln und jeweils nur Input bzw. Output kognitiver Prozesse, selbst aber kein Teil der zentralen, von Körper und Umwelt losgelösten kognitiven Maschinerie in einer zentralen Verarbeitungseinheit. Zu einem wirklich radikalen Bruch mit dem Computermodell und der traditionellen Auffassung von Kognition kam es erst mit dem Dynamizismus (s. Kap. 4) und situierten Ansätzen (s. Kap. 5).