K. Mainzer (Hrsg.)Philosophisches Handbuch Künstliche Intelligenzhttps://doi.org/10.1007/978-3-658-19606-6_57

Neuromorphe Computer und Künstliche Intelligenz

Klaus Mainzer¹

(1)

TUM Senior Excellence Faculty, Technische Universität München (TUM), München, Deutschland

Klaus Mainzer

Email: mainzer@tum.de

1 Von komplexen dynamischen Systemen zur Evolution

2 Gehirne als komplexe dynamische Systeme

3 Klassische digitale Computer versus neuromorphe Rechner

4 Neuromorphe Algorithmen des Machine Learning

Literatur

Zusammenfassung

Die klassische KI-Forschung orientiert sich an den Leistungsmöglichkeiten eines programmgesteuerten Computers, der nach der Churchschen These im Prinzip mit einer Turingmaschine äquivalent ist. Nach dem Mooreschen Gesetz wurden damit bis heute gigantische Rechen- und Speicherkapazitäten erreicht. Aber die Leistungen von Supercomputern haben einen Preis, dem die Energie einer Kleinstadt entsprechen kann. Umso beeindruckender sind menschliche Gehirne, die Leistungen des KI-Systems WATSON (z. B. eine natürliche Sprache sprechen und verstehen) mit dem Energieverbrauch einer Glühlampe realisieren. Spätestens dann ist man von der Effizienz neuromorpher Systeme wie biologische Gehirne beeindruckt, die in der Evolution entstanden sind. Der folgende Artikel zeigt zunächst, dass biologische Gehirne sich als komplexe dynamische Systeme auffassen lassen. Das Modell komplexer neuronaler Netze lässt sich aber nicht nur wie bisher im Machine Learning auf digitalen Computern simulieren, sondern auch technisch als Hardware mit neuartigen digitalen und analogen Einheiten wie einem Memristor realisieren (Mainzer 2019, Kap. 10.1; Mainzer 2024). Trainingsalgorithmen des Machine Learning können für diese neuartige Rechnerarchitektur (im Unterschied zur von Neumann-Architektur) eingerichtet werden und kommen damit der tatsächlichen Arbeitsweise natürlicher Intelligenz mit biologischen Gehirnen sehr nahe.

Schlüsselwörter

Komplexe dynamische SystemeLokale AktivitätNeuronale NetzeLernalgorithmenMachine LearningNeuromorpher ComputerMemristorMemristive SystemeVon Neumann-Flaschenhals

1 Von komplexen dynamischen Systemen zur Evolution

Biomoleküle, Zellen, Organe, Organismen und Populationen sind hochkomplexe dynamische Systeme, in denen viele Elemente wechselwirken. Komplexitätsforschung beschäftigt sich fachübergreifend in Physik, Chemie, Biologie und Ökologie mit der Frage, wie durch die Wechselwirkungen vieler Elemente eines komplexen dynamischen Systems (z. B. Atome in Materialien, Biomoleküle in Zellen, Zellen in Organismen, Organismen in Populationen) Ordnungen und Strukturen entstehen können, aber auch Chaos und Zerfall.

Allgemein wird in dynamischen Systemen die zeitliche Veränderung ihrer Zustände durch Gleichungen beschrieben. Der Bewegungszustand eines einzelnen Himmelskörpers lässt sich noch nach den Gesetzen der klassischen Physik genau berechnen und voraussagen. Bei Millionen und Milliarden von Molekülen, von denen der Zustand einer Zelle abhängt, muss auf Hochleistungscomputer zurückgegriffen werden, die Annäherungen in Simulationsmodellen liefern. Komplexe dynamische Systeme gehorchen aber fachübergreifend in Physik, Chemie, Biologie und Ökologie denselben oder ähnlichen mathematischen Gesetzen (Mainzer 2007).

Die Grundidee komplexer dynamischer Systeme ist immer dieselbe: Erst die komplexen Wechselwirkungen von vielen Elementen erzeugen neue Eigenschaften des Gesamtsystems, die nicht auf einzelne Elemente zurückführbar sind. So ist ein einzelnes Wassermolekül nicht „feucht“, aber eine Flüssigkeit durch die Wechselwirkungen vieler solcher Elemente. Einzelne Moleküle „leben“ nicht, aber eine Zelle aufgrund ihrer Wechselwirkungen. In der Systembiologie ermöglichen die komplexen chemischen Reaktionen von vielen einzelnen Molekülen die Stoffwechselfunktionen und Regulationsaufgaben von ganzen Proteinsystemen und Zellen im menschlichen Körper. Man unterscheidet daher bei komplexen dynamischen Systemen die Mikroebene der einzelnen Elemente von der Makroebene ihrer Systemeigenschaften. Diese Emergenz oder Selbstorganisation von neuen Systemeigenschaften wird in der Systembiologie berechenbar und in Computermodellen simulierbar. In diesem Sinn ist die Systembiologie ein Schlüssel zur Komplexität des Lebens.

Allgemein besteht ein räumliches System aus identischen Elementen („Zellen“), die miteinander in unterschiedlicher Weise (z. B. physikalisch, chemisch oder biologisch) wechselwirken können. Ein solches System heißt komplex, wenn es aus homogenen Anfangsbedingungen nicht-homogene („komplexe“) Muster und Strukturen erzeugen kann. Diese Muster- und Strukturbildung wird durch lokale Aktivität ihrer Elemente ausgelöst (Mainzer und Chua 2013). Das gilt nicht nur für Stammzellen beim Wachstum eines Embryos, sondern auch z. B. für Transistoren in elektronischen Netzen.

Ein Transistor ist lokal aktiv, wenn er einen kleinen Signalinput aus der Energiequelle einer Batterie zu einem größeren Signaloutput verstärken kann, um damit nicht-homogene („komplexe“) Spannungsmuster in Schaltnetzen zu erzeugen.

Keine Radios, Fernseher oder Computer wären ohne die lokale Aktivität solcher Einheiten funktionstüchtig. Bedeutende Forscher wie die Nobelpreisträger I. Prigogine (Chemie) und E. Schrödinger (Physik) waren noch der Auffassung, dass für Struktur- und Musterbildung ein nichtlineares System und eine Energiequelle ausreichen. Bereits das Beispiel der Transistoren zeigt aber, dass Batterien und nichtlineare Schaltelemente alleine keine komplexen Muster erzeugen können, wenn die Elemente nicht lokal aktiv im Sinne der beschriebenen Verstärkerfunktion sind.

Das Prinzip der lokalen Aktivität hat grundlegende Bedeutung für Musterbildung komplexer Systeme und wurde bisher weitgehend nicht erkannt. Es kann allgemein mathematisch definiert werden, ohne auf spezielle Beispiele aus Physik, Chemie, Biologie oder Technik Bezug zu nehmen (Mainzer und Chua 2013). Diese Definition bezieht sich auf nichtlineare Differenzialgleichungen, wie sie von Reaktions-Diffusionsprozessen bekannt sind (aber keineswegs auf flüssige Medien wie bei chemischen Diffusionen beschränkt sind).

Anschaulich handelt es sich um ein räumliches Gitter, dessen Gitterpunkte mit Zellen besetzt sind, die lokal wechselwirken. Jede Zelle (z. B. Protein in einer Zelle, Neuron im Gehirn, Transistor im Computer) ist mathematisch betrachtet ein dynamisches System mit Input und Output. Ein Zellzustand entwickelt sich lokal nach dynamischen Gesetzen in Abhängigkeit von der Verteilung benachbarter Zellzustände. Zusammengefasst werden die dynamischen Gesetze durch die Zustandsgleichungen isolierter Zellen und ihrer Kopplungsgesetze definiert. Zusätzlich sind bei der Dynamik Anfangs- und Nebenbedingungen zu berücksichtigen.

1.1 Definition lokaler Aktivität

Allgemein heißt eine Zelle lokal aktiv, wenn an einem zellulären Gleichgewichtspunkt ein kleiner lokaler Input existiert, der mit einer externen Energiequelle zu einem großen Output verstärkt werden kann. Die Existenz eines Inputs, der lokale Aktivität auslöst, kann mathematisch durch bestimmte Testkriterien systematisch geprüft werden. Eine Zelle heißt lokal passiv, wenn es keinen Gleichgewichtspunkt mit lokaler Aktivität gibt. Das fundamental Neue an diesem Ansatz ist der Beweis, dass Systeme ohne lokal aktive Elemente prinzipiell keine komplexen Strukturen und Muster erzeugen können.

Strukturbildung in Natur und Technik lässt sich systematisch klassifizieren, indem Anwendungsgebiete durch Reaktions-Diffusionsgleichungen nach dem eben beschriebenen Muster modelliert werden. So lassen sich z. B. die entsprechenden Differenzialgleichungen für Musterbildung in der Chemie (z. B. Musterbildung in homogenen chemischen Medien), in der Morphogenese (z. B. Musterbildung von Muschelschalen, Fellen und Gefieder in der Zoologie), in der Gehirnforschung (Verschaltungsmuster im Gehirn) und in der elektronischen Netztechnik (z. B. Verschaltungsmuster in Computern) untersuchen.

In der statistischen Thermodynamik werden das Verhalten und die Wechselwirkung von vielen Elementen (z. B. Molekülen) in einem komplexen System beschrieben. L. Boltzmanns 2. Hauptsatz der Thermodynamik besagt aber nur, dass alle Strukturen, Muster und Ordnungen in einem isolierten System zerfallen, wenn man sie sich selber überlässt. So lösen sich alle molekularen Anordnungen in einem Gas auf und verteilt sich Wärme bei Dissipation gleichmäßig-homogen in einem abgeschlossenen Raum. Organismen zerfallen und sterben, wenn sie nicht in Stoff- und Energieaustausch mit ihrer Umgebung stehen. Wie können aber Ordnung, Struktur und Muster entstehen?

Das Prinzip der lokalen Aktivität erklärt, wie Ordnung und Struktur in einem offenen System durch dissipative Wechselwirkung bzw. Stoff- und Energieaustausch mit der Systemumgebung entstehen. Es ergänzt damit den 2. Hauptsatz als 3. Hauptsatz der Thermodynamik.

Strukturbildungen entsprechen mathematisch nicht-homogenen Lösungen der betrachteten Differenzialgleichungen, die von unterschiedlichen Kontrollparametern (z. B. chemischen Stoffkonzentrationen, ATP-Energie in Zellen, neurochemischen Botenstoffen von Neuronen) abhängen. Für die betrachteten Beispiele von Differenzialgleichungen konnten wir systematisch die Parameterräume definieren, deren Punkte alle möglichen Kontrollparameterwerte des jeweiligen Systems repräsentieren. In diesen Parameterräumen lassen sich dann die Regionen lokaler Aktivität und lokaler Passivität genau bestimmen, die entweder Strukturbildung ermöglichen oder mathematisch „tot“ sind. Mit Computersimulationen lassen sich im Prinzip für jeden Punkt im Parameterraum die möglichen Struktur- und Musterbildungen erzeugen (Abb. 1; Mainzer und Chua 2013, S. 31–32). In diesem mathematischen Modellrahmen lässt sich also Struktur- und Musterbildung vollständig bestimmen und voraussagen.

Abb. 1
Struktur- und Musterbildungen einer nichtlinearen Diffusions- und Reaktionsgleichung. (Mainzer und Chua 2013, S. 31–32)

1.2 Lokale Aktivität am Rand des Chaos

Eine vollständig neue Anwendung der lokalen Aktivität ist der „Rand des Chaos“ (edge of chaos), an dem die meisten komplexen Strukturen entstehen. Ursprünglich stabile („tote“) und isolierte Zellen können durch dissipative Kopplung „zum Leben erweckt“ werden und Muster- und Strukturbildung auslösen. Anschaulich gesprochen „ruhen“ sie isoliert am Rand einer Stabilitätszone, bis sie durch dissipative Kopplung aktiv werden.

Man könnte sich isolierte chemische Substanzen vorstellen, die in der lebensfeindlichen dunklen Tiefsee am Rand eines heißen Vulkanschlots ruhen. Durch dissipative Wechselwirkung der ursprünglich „toten“ Elemente kommt es zur Ausbildung neuer Lebensformen. Als chemische Substanzen müssen sie jedoch das Potenzial lokaler Aktivität in sich tragen, das durch die dissipative Kopplung ausgelöst wird.

Das ist insofern ungewöhnlich, da es dem intuitiven Verständnis von „Diffusion“ zu widersprechen scheint: Danach bedeutet „Dissipation“, dass sich z. B. ein Gas gleichmäßig-homogen in einem Raum verteilt. Nicht nur instabile, sondern auch stabile Elemente können jedoch durch dissipative Kopplung komplexe (inhomogene) Struktur- und Musterbildungen auslösen. Das lässt sich exakt für nichtlineare Reaktions- und Diffusionsgleichungen beweisen. In den Parameterräumen dieser Gleichungen kann der „Rand des Chaos“ als Teilgebiet der Region lokaler Aktivität markiert werden.

2 Gehirne als komplexe dynamische Systeme

Auch das menschliche Gehirn ist ein Beispiel für ein komplexes dynamisches System, in dem Milliarden von Neuronen neurochemisch wechselwirken. Durch vielfach versendete elektrische Impulse entstehen komplexe Schaltmuster, die mit kognitiven Zuständen wie Denken, Fühlen, Wahrnehmen oder Handeln verbunden sind. Die Entstehung (Emergenz) dieser mentalen Zustände ist wieder ein typisches Beispiel für die Selbstorganisation eines komplexen Systems: Das einzelne Neuron ist quasi „dumm“ und kann weder denken oder fühlen noch wahrnehmen. Erst ihre kollektiven Wechselwirkungen und Verschaltungen unter geeigneten Bedingungen erzeugen kognitive Zustände.

2.1 Natürliche neuronale Netze

In den neuronalen Netzen von Gehirnen findet die neurochemische Dynamik zwischen den Neuronen statt. Chemische Botenstoffe bewirken neuronale Zustandsänderungen durch direkte und indirekte Übertragungsmechanismen großer Plastizität. Unterschiedliche Netzzustände werden in den synaptischen Verbindungen zellulärer Schaltmuster (cell assemblies) gespeichert. Wie in einem komplexen dynamischen System üblich, unterscheiden wir auch im Gehirn zwischen den Mikrozuständen der Elemente (d. h. den digitalen Zuständen des „Feuerns“ und „Nicht-Feuerns“ bei Entladung und Ruhezustand eines Neurons) und den Makrozuständen von Musterbildungen (d. h. Schaltmustern von gemeinsam aktivierten Neuronen in einem neuronalen Netz).

Computervisualisierungen (z. B. PET-Aufnahmen) zeigen, dass unterschiedliche makroskopische Verschaltungsmuster mit unterschiedlichen mentalen und kognitiven Zuständen wie Wahrnehmung, Denken, Fühlen und Bewusstsein korreliert sind. In diesem Sinn können kognitive und mentale Zustände als emergente Eigenschaften neuraler Gehirnaktivität bezeichnet werden: Einzelne Neuronen können weder sehen, fühlen noch denken, aber Gehirne verbunden mit den Sensoren des Organismus.

Die derzeitigen Computersimulationen beobachten also Musterbildungen (pattern formation) im Gehirn, die wir auf eine nichtlineare Systemdynamik, die lokale Aktivität der Neuronen und den von ihnen ausgelösten Aktionspotenzialen zurückführen. Ihre Korrelationen mit mentalen und kognitiven Zuständen werden aufgrund von psychologischen Beobachtungen und Messungen erschlossen: Immer wenn Personen z. B. sehen oder sprechen, sind diese oder jene Musterbildungen im Gehirn zu beobachten. Im Brain Reading können einzelne Musterbildungen mittlerweile auch soweit bestimmt werden, dass aus diesen Verschaltungsmustern die entsprechenden Seh- und Hörwahrnehmungen mit geeigneten Algorithmen entschlüsselt werden können. Allerdings ist diese Technik erst in ihren Anfängen.

In einer Top-down Strategie untersuchen Neuropsychologie und Kognitionsforschung mentale und kognitive Fähigkeiten wie Wahrnehmen, Denken, Fühlen und Bewusstsein und versuchen, sie mit entsprechenden Gehirnarealen und ihren Verschaltungsmustern zu verbinden. In einer Bottom-up Strategie untersuchen Neurochemie und Gehirnforschung die molekularen und zellulären Vorgänge der Gehirndynamik und erklären daraus neuronale Verschaltungsmuster des Gehirns, die wiederum mit mentalen und kognitiven Zuständen korreliert sind (Banerjee und Chakrabarti 2008).

Beide Methoden legen einen Vergleich mit dem Computer nahe, bei dem in einer Bottom-up Strategie von der „Maschinensprache“ der Bitzustände in z. B. Transistoren auf die Bedeutungen höherer Nutzersprachen des Menschen geschlossen wird, während in einer Top-down-Strategie umgekehrt die höheren Nutzersprachen über verschiedene Zwischenstufen (z. B. Compiler und Interpreter) auf die Maschinensprache übersetzt werden. Während aber in der Informatik die einzelnen technischen und sprachlichen Schichten von der Verschaltungsebene über Maschinensprache, Compiler, Interpreter etc. bis zur Nutzerebene genau identifiziert und in ihren Wechselwirkungen beschrieben werden können, handelt es sich in Gehirn- und Kognitionsforschung bisher nur um ein Forschungsprogramm.

In der Gehirnforschung sind bisher nur die Neurochemie der Neuronen und Synapsen und die Musterbildung ihrer Verschaltungen gut verstanden, also die „Maschinensprache“ des Gehirns. Die Brücke (middleware) zwischen Kognition und „Maschinensprache“ muss erst noch geschlossen werden. Dazu wird es noch vieler detaillierter empirischer Untersuchungen bedürfen. Dabei ist keineswegs bereits klar, ob einzelne Hierarchieebenen wie im Computerdesign genau unterschieden werden können. Offenbar erweist sich die Architektur der Gehirndynamik als wesentlich komplexer. Zudem lag bei der Entwicklung des Gehirns kein geplantes Design zugrunde, sondern eine Vielzahl evolutionärer Algorithmen, die über Jahrmillionen unter unterschiedlichen Bedingungen mehr oder weniger zufällig entstanden und in verwickelter Weise miteinander verbunden sind.

2.2 Hodgkin-Huxley (HH) Modell komplexer Gehirndynamik

In der Komplexitätsforschung kann die synaptische Wechselwirkung der Neuronen im Gehirn durch gekoppelte Differenzialgleichungen beschrieben werden. Die Hodgkin-Huxley Gleichungen sind ein Beispiel für nichtlineare Reaktions-Diffusionsgleichungen, mit denen die Übertragung von Nervenimpulsen modelliert werden kann. Sie wurden von den Medizin-Nobelpreisträgern A. L. Hodgkin und A. F. Huxley durch empirische Messungen gefunden und liefern ein empirisch bestätigtes mathematisches Modell der neuronalen Gehirndynamik.

In Abb. 2 wird der Informationskanal (Axon) einer Nervenzelle (Neuron) (a) durch eine Kette von identischen Hodgkin-Huxley-(HH) Zellen dargestellt, die durch Diffusionsverbindungen gekoppelt sind (b). Diese Kopplungen werden technisch durch passive Widerstände dargestellt. Die HH-Zellen entsprechen einem elektrotechnischen Verschaltungsmodell (c): In einer biologischen Nervenzelle verändern Ionenströme von Kalium und Natrium die Spannungen auf der Zellmembran. Im elektrotechnischen Modell werden Natrium- und Kaliumionenströme zusammen mit einem Stromabfluss durch einen externen Axon Membranstrom ausgelöst. Die Ionenkanäle werden technisch durch transistorartige Verstärker realisiert. Sie sind mit einer Natriumionen- und Kaliumionen Batteriespannung, einer Membrankondensatorspannung und einem Spannungsabfluss verbunden. Damit können die Inputströme nach dem Prinzip der lokalen Aktivität verstärkt werden, um bei Überschreitung eines Schwellenwerts ein Aktionspotenzial auszulösen („Feuern“). Diese Aktionspotenziale lösen Kettenreaktionen aus, die zu Verschaltungsmustern von Neuronen führen.

Abb. 2
Elektrotechnisches Modell der Hodgkin-Huxley Gleichungen. (Mainzer und Chua 2013, S. 292, 299)

Wie bereits erläutert, lassen sich aber durch solche Differenzialgleichungen die entsprechenden Parameterräume eines dynamischen Systems mit lokal aktiven und lokal passiven Regionen genau bestimmen. Im Fall der Hodgkin-Huxley-Gleichungen erhalten wir den Parameterraum des Gehirns mit den genau vermessenen Regionen lokaler Aktivität und lokaler Passivität. Nur im Bereich lokaler Aktivität können Aktionspotenziale von Neuronen entstehen, die Verschaltungsmuster im Gehirn auslösen. Mit Computersimulationen lassen sich diese Verschaltungsmuster für die verschiedenen Parameterpunkte systematisch untersuchen und voraussagen.

So kann auch die Region am „Rand des Chaos“ (edge of chaos) exakt bestimmt werden. Sie ist winzig klein und beträgt weniger als 1 mV und 2 μA. Diese Region ist mit großer lokaler Aktivität und Musterbildung verbunden, die in den entsprechenden Parameterräumen visualisiert werden kann. Hier wird daher eine „Insel der Kreativität“ vermutet.

Für eine elektrotechnische Realisation haben sich jedoch die ursprünglichen Gleichungen von Hodgkin und Huxley als fehlerhaft erwiesen. Die Mediziner Hodgkin und Huxley deuteten einige Schaltelemente in einer Weise, die zu elektrotechnischen Anomalien führte. So nahmen sie z. B. eine zeitabhängige Leitfähigkeit (Konduktanz) an, um das Verhalten der Kalium- und Natriumionenkanäle zu erklären. Tatsächlich konnten diese zeitlichen Veränderungen aber nur numerisch aus empirisch abgeleiteten Gleichungen berechnet werden. Schalttheoretisch war es nicht möglich, entsprechende Zeitfunktionen für zeitlich sich verändernde Schaltelemente explizit zu definieren.

Die Anomalien lösen sich auf, wenn die Ionenkanäle durch ein neues Schaltelement erklärt werden, das Leon Chua bereits 1971 mathematisch vorausgesagt hatte (Chua 1971):

Gemeint ist der Memristor (aus den englischen Wort „memory“ für Speicher und „resistor“ für Widerstand zusammengesetzt). Bei diesem Schaltelement ist der elektrische Widerstand nicht konstant, sondern von seiner Vergangenheit abhängig. Der jeweils aktuelle Widerstand des Memristors ist davon abhängig, wieviel Ladung in welcher Richtung geflossen ist. Der Widerstand bleibt auch ohne Energiezufuhr erhalten. Diese Erkenntnis hat enorme praktische Konsequenzen, könnte aber auch ein Durchbruch für neuromorphe Computer bedeuten, die am menschlichen Gehirn orientiert sind. Dazu erklären wir zunächst das Konzept eines Memristors.

Praktisch würden Rechner mit Memristoren nach dem Einschalten ohne Booten sofort betriebsbereit sein. Ein Memristor behält seinen Speicherinhalt, wenn er mit Wechselstrom ausgelesen wird. Ein Computer könnte also wie ein Lichtschalter ein- und ausgeschaltet werden, ohne dass Information verloren geht.

3 Klassische digitale Computer versus neuromorphe Rechner

Die Rechnerarchitektur eines klassischen digitalen Computers wird bis heute auf den ungarisch-amerikanischen Mathematiker John von Neumann zurückgeführt, die in den ersten universell programmierbaren digitalen amerikanischen Computer (z. B. ENIAC 1945) verwendet wurde. Tatsächlich wurden die Grundlagen bereits 1936 von dem deutschen Computerkonstrukteur Konrad Zuse beschrieben und 1943 in seiner Z3 technisch realisiert. Digitale Informationsverarbeitung erfordert danach, dass Elektronen zwischen einem Arbeitsspeicher, Rechen- und Steuereinheiten bewegt werden. Das ist zwar eine klare Ordnung, auf der sich Programmiersprachen logisch aufbauen lassen, erzeugt aber aus heutiger Sicht einen gravierenden und umweltbelastenden Energieaufwand:

Informationen sind als Bitfolgen von 0 und 1 kodiert und werden in Rechenschritten ständig verändert. Alle Rechenschritte müssen zudem nacheinander (sequenziell) abgearbeitet werden. Entscheidend ist, dass bei jedem Rechenschritt Bits zwischen den getrennten Speicher-, Rechen- und Steuereinheiten hin- und her bewegt werden müssen. Bei immer kleineren Chipstrukturen und wachsender Informationsmenge (Big Data) entsteht so ein Engpass der Informationsverarbeitung, der mit Blick auf die Rechnerarchitektur auch als „von-Neumann-Flaschenhals“ bezeichnet wird. Diese Bezeichnung geht auf den Entwickler der Programmiersprache „Fortran“ John W. Backus (1978) zurück.

Es ist aber nicht nur die wachsende Rechenzeit, die der „von-Neumann-Flaschenhals“ durch die sequenzielle digitale Verarbeitung großer Datenmengen erzeugt. Bewegung von Elektronen bedarf auch Energie und erzeugt Wärme. Diese Abwärme steigt mit immer kleineren Chipstrukturen. Wenn nun noch im modernen Deep Learning neuronale Netze mit hunderten und tausenden von neuronalen Schichten und gigantisch steigenden Parameteranzahlen auf von-Neumann-Rechnern simuliert werden sollen, dann ahnt man, wie der von Neumann-Flaschenhals zu einem „Energiefresser“ wird, dessen CO₂-Emissionen das Klimaproblem verschärfen.

Ein Paradigmenwechsel der Rechnerstrukturen wird unausweichlich, wenn der wachsende Einsatzbereich der KI, Anwendungen in Mobiltelefonen, autonomen Fahrzeugen, der Medizintechnik und Sensornetzwerken ressourcenschonend realisiert werden soll. Nur so gelingt eine nachhaltige Rechnertechnologie, die dem „European Green Deal“ gerecht wird und zugleich wirtschaftlich effektiv ist, d. h. geringere Kosten bei gleichzeitiger Leistungssteigerung der KI-Anwendungen. Hier setzen neuromorphe Rechnerstrukturen nach dem Vorbild natürlicher Gehirne an.

3.1 Grundlagen memristiver Systeme

Traditionell wurden in der Elektrotechnik nur Widerstand, Kondensator und Spule als Schaltelemente unterschieden. Sie verbinden die vier Schaltgrößen Ladung, Strom, Spannung und magnetischer Fluss: Widerstände verbinden Ladung und Strom, Spulen verbinden magnetischen Fluss und Strom, Kondensatoren verbinden Spannung und Ladung. Was verbindet aber Ladung und magnetischen Fluss? Dazu postulierte L. Chua 1971 den Memristor. Mathematisch wird dazu eine Funktion R (q) („Memristanz-Funktion“) definiert, in der die Änderung des magnetischen Flusses Φ mit der Ladung q festgehalten wird, d. h.

$R(q)=\frac{d\Phi (q)}{dq}.$

Die zeitliche Veränderung der Ladung q definiert den Strom i (t), d. h.

$i\ (t)=\frac{dq}{dt}.$

Die zeitliche Veränderung des magnetischen Flusses Φ definiert die Spannung v (t), d. h.

$v\ (t)=\frac{d\Phi}{dt}.$

Daraus ergibt sich, dass die Spannung v an einem Memristor über den Strom i direkt von der Memristanz abhängt:

$v=R\ (q)\ i.$

Das erinnert an das Ohmsche Gesetz v = R i, wonach die Spannung v proportional zum Strom i mit dem Widerstand R als Proportionalitätskonstante ist. Allerdings ist die Memristanz nicht konstant, sondern vom Zustand der Ladung q abhängig. Umgekehrt gilt für Strom

$i=G\ (q)\ v,$

wobei die Funktion G (q) = R(q)⁻¹ als „Memduktanz“ (aus dem englischen Wort „memory“ für Speicher und „conductance“ für Leitfähigkeit zusammengesetzt) bezeichnet wird.

Ein Memristor lässt sich als memristives System verallgemeinern. Ein memristives System ist nicht mehr nur auf eine einzige Zustandsvariable und eine lineare ladungs- oder flussgetriebene Gleichung reduziert.

Ein memristives System bezeichnet ein beliebiges physikalisches System, das durch eine Menge von internen Zustandsvariablen $\overrightarrow{s}$ (als Vektor) bestimmt ist. So erhält man eine allgemeine Input-Output Gleichung

$\overrightarrow{y}(t)=g\ \left(\overrightarrow{s},\overrightarrow{u},t\right)\ \overrightarrow{u}(t)$

mit dem Input $\overrightarrow{u}$ (t) (z. B. Spannung) und dem Output $\overrightarrow{y}$ (t) (z. B. Strom). Die Zustandsentwicklung ist allgemein durch eine Differentialgleichung bestimmt:

$\frac{d\overrightarrow{s}}{dt}=\mathit{\mathsf{f}}\ \left(\overrightarrow{s},\overrightarrow{u},\mathit{\mathsf{t}}\right).$

Memristive Systeme zeigen ein außergewöhnlich komplexes und nichtlineares Verhalten. Typisch ist die Hysteresekurve im v/i – Diagramm von Abb. 3. Sie verläuft in geschlossenen Schleifen durch den Koordinatennullpunkt (pinched hysteresis loop) (Chua 2014).

Abb. 3
Hystereskurve eines Memristors (in Abhängigkeit von der Kreisfrequenz ω mit ω₁ < ω₂). (Chua 2014)

Allgemein bezeichnet Hysterese das Verhalten der Ausgangsgröße eines Systems, das auf eine Eingangsgröße mit einem verzögerten (griech. hysteros) Signal und variierend reagiert. Das Verhalten hängt also nicht nur direkt von der Eingangsgröße, sondern auch vom vorherigen Zustand der Ausgangsgröße ab. Bei gleicher Eingangsgröße kann das System also einen von mehreren möglichen Zuständen einnehmen.

Als „Neuristoren“ simulieren memristive Systeme das Verhalten von Synapsen und werden daher für neuromorphe Computer interessant. Dazu werden die Ionenkanäle im Schaltmodell von Abb. 2 als memristive Systeme aufgefasst. An die Stelle von Hodgkin-Huxley’s zeitabhängiger Leitfähigkeit G_k des Kaliumionenkanals tritt ein durch Ladung kontrollierter Memristor, der von einer Zustandsvariablen abhängt. An die Stelle von Hodgkin-Huxley’s zeitabhängiger Leitfähigkeit G_Na des Natriumionenkanals tritt ein durch Ladung kontrollierter Memristor, der von zwei Zustandsvariablen abhängt. Diese schalttheoretisch wohldefinierten Größen erklären präzise die empirischen Mess- und Beobachtungsdaten von Synapsen und Neuronen (Sah et al. 2014).

Wie lassen sich aber solche Neuristoren technisch realisieren? R. Stanley Williams von der Firma Hewlett-Packard (Silicon Valley) hat dazu 2007 erstmals eine Version konstruiert, die mittlerweile ständig vereinfacht und verbessert wurde (Williams 2008). Dazu stelle man sich ein Crossbar-Netzwerk aus sich kreuzenden senkrechten und waagerechten Drähten vor, das an einen Maschendraht erinnert (Abb. 4) (Tetzlaff 2014, S. 14 nach Fig. 1.5). Die Kreuzungen eines senkrechten und waagerechten Drahts sind mit einem Schalter verbunden. Um den Schalter zu schließen, wird an beiden Drähten eine positive Spannung angelegt. Um ihn zu öffnen, wird die Ladung umgekehrt.

Abb. 4
Memristives System mit Schaltern aus Titandioxyd. (Tetzlaff 2014, S. 14 nach Fig. 1.5)

Um memrestives Verhalten zu erreichen, werden die Schalter nach einer bestimmten Architektur konstruiert. Sie erinnert an ein Sandwich, bei dem eine wenige Nanometer dicke Titandioxyd-Schicht zwischen zwei Platinelektroden (als „Brotscheiben“) liegt. In Abb. 4 dient die untere Titandioxydschicht als Isolator. Die obere Titandioxydschicht ist mit Sauerstofffehlstellen versehen. Anschaulich kann man sie sich wie kleine Blasen in einem Bier vorstellen – mit dem Unterschied, dass sie nicht austreten können. Diese Titanoxydschicht besitzt eine hohe Leitfähigkeit. Wenn eine positive Spannung angelegt wird, verschieben sich die Sauerstofffehlstellen. Damit verringert sich die Dicke der unteren Isolationsschicht, und die Leitfähigkeit des Schalters wird insgesamt erhöht. Eine negative Ladung zieht demgegenüber die positiv geladenen Sauerstofffehlstellen an. Dadurch wächst die Isolationsschicht und die Leitfähigkeit des Schalters wird insgesamt verringert.

Das memristive Verhalten zeigt sich, wenn die Spannung positiv oder negativ umgeschaltet wird: Dann verändern sich die kleinen Blasen der Sauerstofffehlstellen nicht, sondern bleiben, wo sie sind. Die Grenze zwischen den beiden Titandioxydschichten ist quasi „gefroren“ Daher kann sich der Schalter „erinnern“, wieviel Spannung zuletzt angewendet wurde. Er funktioniert wie ein Memristor.

Andere Memristoren verwenden wenige Nanometer große Siliziumdioxydschichten, die nur geringe Kosten erfordern. Bereits die von Hewlett-Packard hergestellten Crossbar-Speicher haben eine enorme Packungsdichte von ca. 100 Gibit/cm². Sie könnten zudem mit anderen Halbleiterstrukturen verbunden werden. Daher ist nicht ausgeschlossen, dass sie die Entwicklung neuromorpher Strukturen zur Simulation des menschlichen Gehirns einleiten.

3.2 Kognition durch memristive Netzwerke

Ausgang dieses Forschungsprogramms war das mathematische Hodgkin-Huxley Modell des Gehirns. Im Human Brain Project der EU wird eine genaue empirische Modellierung des menschlichen Gehirns mit allen neurologischen Details angestrebt. Mit der technischen Entwicklung neuromorpher Netzwerke stünde ein empirisches Testbett für dieses mathematische Modell zur Verfügung, in dem Voraussagen über Musterbildungen im Gehirn und ihre kognitiven Bedeutungen überprüft werden können.

Aus der Psychologie wissen wir, dass mentale und kognitive Zustände in äußerst komplexer Weise aufeinander einwirken. So können Wahrnehmungen Gedanken und Vorstellungen auslösen, die zu Handlungen und Bewegungen führen. Eine Wahrnehmung ist in der Regel aber auch mit einer Selbstwahrnehmung verbunden: Ich bin es, der wahrnimmt. Selbstwahrnehmungen führen verbunden mit der Speicherung der eigenen Biografie im Gedächtnis zum Ich-Bewusstsein. Wenn alle diese unterschiedlichen mentalen Zustände mit Schaltungsmustern im Gehirn verbunden sind, dann müssen nicht nur die Wechselwirkungen von einzelnen Neuronen, sondern von Zellverbänden (cell assemblies) mit Zellverbänden von Zellverbänden etc. erfasst werden.

Dazu lassen sich im Prinzip ebenfalls Differenzialgleichungen einführen, die nicht von den lokalen Aktivitäten einzelner Neuronen, sondern ganzer Cell Assemblies abhängen, die wiederum von Cell Assemblies von Cell Assemblies etc. abhängen können. So erhält man ein System von nichtlinearen Differenzialgleichungen, die auf unterschiedlichen Ebenen ineinander verschachtelt sind und so eine äußerst komplexe Dynamik modellieren. Verbunden mit den Sensoren und Aktoren unseres Organismus erfassen sie die Vorgänge, die unsere komplexen motorischen, kognitiven und mentalen Zustände erzeugen. Wie schon betont, kennen wir diese Abläufe noch nicht alle im Detail. Aber es ist deutlich, wie sie im Prinzip mathematisch zu modellieren sind und in neuromorphen Computern empirisch getestet werden könnten.

3.3 Memristor Crossbar Architekturen

Zusammengefasst heißen elektronische Bauelemente, deren Widerstand sich durch elektrische Reize wie Strom und Spannung verändern, memristive Schaltelemente oder Memristoren (NeuroSys 2021). Die Varianten von memristiven Schaltelementen beruhen auf verschiedenen physikalischen Prinzipien wie defekt-basierende resistive Speicher (ReRAM), Phasenwechsel (PCM) und magnetische sowie ferroelektrische Tunnelübergänge. Diese Bauelemente wurden zunächst als nichtflüchtige Speicher (NVM) aufgrund ihrer Skalierbarkeit, Siliziumkompatibilität und Leistungsvorteile im Vergleich zu Standard-NVM-Bauelementen angewendet.

Übersicht

In künstlichen neuronalen Netzen lassen sich die synaptischen Gewichte zwischen Neuronen durch Memristoren simulieren. Man spricht von Memristor-Crossbar-Arrays, wenn die vollständige Verbindung (Konnektivität) zwischen zwei Neuronenebenen in ein 2-dimensionales Array mit Memristoren an den Verbindungspunkten abgebildet wird (Mirsa und Saha 2010). Die Arrays ermöglichen eine hoch energieeffiziente, vollständig parallele, analoge In-memory Berechnung von Vektor-Matrix-Produkten. Sie vermeiden den Berechnungsengpass („von Neumann Flaschenhals“) während des Trainings künstlicher neuronaler Netze mit Standard-Hardware mit zentralen Rechnerprozessoren (CPU) oder Graphikprozessoren (GPU).

Daher sind memristive Crossbar-Arrays eine zukunftsorientierte Hardwaretechnologie für tief lernende neuronale Netze der KI. Memristive Bauelemente können hirnähnliche Synapsenprozesse nachbilden. Dazu gehören Prozesse wie Spike-Time-Dependent Plasticity (STDP) als wichtige Form lokaler Lernregeln, um das Selbstlernen gehirnähnlicher neuromorpher Systeme zu ermöglichen.

3.4 Photonische neuromorphe Schaltkreise

Eine Alternative zur elektronischen Datenverarbeitung ist Licht (Shasin et al. 2020). Photonen als Lichtteilchen sind 1000 mal schneller verglichen mit Elektronen in Schaltungen. Hinzu kommt, dass Lichtwellen sich gegenseitig nicht beeinflussen und einen niedrigen Energiebedarf haben. Die darauf basierende Photonik entwickelte sich auf der Grundlage von Lichtemittern mit Halbleitern und optischen Fasern. Integrierte photonische Bauelemente eröffnen daher die Möglichkeit, hohe Geschwindigkeiten, parallele Datenströme und geringen Verbrauch miteinander zu verbinden.

Optische Übertragungssysteme ermöglichen hohe Datenraten und eine Verkürzung von Latenzzeiten während der Signalübertragung. Komplexe Systeme erfordern eine hinreichende Skalierbarkeit der Anzahl von Neuronen und Synapsen. Hier bietet sich eine hybride Lösung an, die Signalverarbeitung optisch und elektronisch umsetzt.

Dabei werden die nichtlinearen Transferfunktionen der Neuronen und die Signalregeneration elektrisch durchgeführt, während die Signalübertragung zwischen den Neuronen und die lineare Signalverarbeitung bei der Gewichtung und Aufsummierung der Signale optisch realisiert wird. So lassen sich die Verzögerungszeiten entscheidend reduzieren. Ein Proof-of-Concept Demonstrator eines entsprechenden neuronalen Netzes ist ein entscheidender Innovationsschritt für langfristige Ziele einer seriellen Produktion.

Dabei wird auch konventionelle Siliziumtechnik verwendet, die in der Fabrikation auf lange Erfahrung der Digitalisierung zurückgreifen kann. Neuromorphe Prinzipien sind bei der Entwicklung neuartiger Algorithmen und Bauelementeigenschaften zu berücksichtigen. Dazu sind Einsichten der Neurowissenschaften, des automatisierten Systementwurfs und der hardwarenahen Schaltungsentwicklung zusammenzuführen. Die Innovation zielt auf Schaltungsarchitekturen, die elektrische Verarbeitung und Photonik integrieren.

3.5 Energieverbrauch von Gehirnen verglichen zu memristiven und photonischen Systemen

Um den Energieverbrauch pro Recheneinheit zu messen, wird eine multiply-accumulate operation (MAC) zugrunde gelegt (Kickuth 2021). Dazu werden zwei Faktoren multipliziert und das Produkt zu einem fortlaufenden Summanden addiert. MAC-Operationen werden auch verwendet, um den Ablauf von synaptischen Funktionen darzustellen. Die Berechnungseffizienz des menschlichen Gehirns liegt bei 20 W für 10¹⁸ MAC pro Sekunde. Dabei werden 10¹¹ Neuronen mit ca. 10.000 Verbindungen eines Neurons zu anderen Neuronen angenommen. Damit stehen insgesamt 10¹⁵ synaptische Verbindungen zur Verfügung, die alle Signale mit einer Bandbreite von bis zu 1 kHz übertragen. Die Recheneffizienz des Gehirns ist damit niedriger als ein Attojoule ( = 10⁻¹⁸ Joule) pro MAC im Unterschied zu ca. 1 Picojoule ( = 10⁻¹² Joule) pro MAC bei einem leistungsstarken Computer.

Neuromorphe Systeme auf der Grundlage analoger Elektronik mit Memristoren oder photonische Chips eröffnen signifikante Verbesserungen der Rechenleistung. Die Amplitude der Spikes erfolgt zwar zeitlich analog, wird aber digital repräsentiert. Ein Beispiel für höhere Leistungsfähigkeit bei neuromorpher Verarbeitung sind Anwendungen mit hoher Bandbreite im GHz-Bereich. Dazu gehören das Abtasten und die Manipulation des Funkspektrums oder die Steuerung schneller Flugzeuge auf der Grundlage photonischer Chips.

Elektronische Schaltungssysteme benötigen Milliarden von Schaltern, die zwischen einem Ein- und Ausschaltzustand wechseln. Dieser Prozess führt insgesamt zu Zeitverzögerungen (Latenz). Demgegenüber beruht die Photonik auf Wellenausbreitungen mit Interferenzmustern, um das Ergebnis zu bestimmen. Dadurch sind direkte Berechnungen ohne Verzögerungen durch Schalterlatenz möglich. Photonik erreicht hohe Schaltgeschwindigkeiten und Kommunikationsbandbreiten bei geringen Störungen durch benachbarte Kommunikationskanäle. Damit kann sehr schnelle Informationsverarbeitung auf der Grundlage von Spikes mit hoher Verbindungsdichte durchgeführt werden. Es wird damit gerechnet, dass neuromorphe Systeme auf photonischer Grundlage bis zu 100 Millionen Mal schneller arbeiten könnten als neuromorphe Elektronik. Damit werden auf jeden Fall Geschwindigkeiten wie bei biologischen Gehirnen und noch schneller erreicht.

Auch der Energieverbrauch mit photonischen Systemen eröffnet bemerkenswerte Perspektiven. Theoretisch könnten optische neuronale Netze eine physikalische Grenze traditioneller digitaler Chips vermeiden. Thermodynamisch arbeiten diese Chips irreversibel. Bekannt wurde diese Grenze als Landauer-Limit, wonach das Löschen einer noch so kleinen Information eine minimale Energie als Wärme an die Umgebung abgibt. Allerdings ist dieser Betrag nach unten beschränkt. Für photonische Schaltungen ist das Limit vom Netzwerk und dem bearbeiteten Problem abhängig. In getesteten Beispielen liegt es zwischen 50 zJ bis 5 aJ/MAC. Das thermodynamische Landauer-Limit für einen digitalen Prozessor beträgt 3 aJ/MAC für 1000 Bit-Operationen pro MAC.

4 Neuromorphe Algorithmen des Machine Learning

Neuromorphe Rechner können zusammen mit künstlichen neuronalen Netzen biologische Gehirne simulieren, um kognitive Aufgaben wie raum-zeitliche Mustererkennung mit großer Effizienz zu lösen. Im Unterschied zu den gewöhnlich benutzten neuronalen Netzen des Deep Learning (DNN) werden in biologisch inspirierte neuronale Netze die Outputs wie bei Messungen von Gehirnsignalen als Folgen von diskreten Spikes dargestellt. Solche neuronalen Netzwerke werden auch spiking neuronale Netzwerke (SNN) bezeichnet. SNNs sind dynamische Systeme mit zeitlich variierendem Stimulus. Inputs der Umgebung ändern sich mit der Zeit, und die Outputs der Neuronen reagieren mit zeitlich variierenden Output-Mustern. Information wird durch die zeitliche Struktur von Spike-Folgen dargestellt. Zeitliches Kodieren von Information in Spikefolgen ermöglicht schnelle und genaue Informationsverarbeitung mit niedriger Latenz und real-zeitlicher Anwendung. Um solche zeitlichen Muster zu erlernen, müssen SNNs durch geeignete Algorithmen trainiert werden.

Bei neuromorpher Hardware werden die synaptischen Gewichte von neuronalen Netzen gewöhnlich in SRAM-Zellen gespeichert (RAM = Random Access Memory). Bei hohem Datenaufkommen gewinnen aber Energieverbrauch und Latenz Überhand. Zusätzlich kann eine SRAM-Zelle sechs oder mehr Transistoren für ein einzelnes Bit mit hohem Energieverbrauch und Platzbedarf erfordern. Daher werden RRAM (Resistive Random Access Memory)-Einheiten bevorzugt, die ähnlich wie biologische Synapsen Datenspeicherung und Datenverarbeitung (Prozessor) integrieren. Ein Memristor-basierter Speicher kann ein oder mehr Bits eines Synapsengewichts in einer einzigen Instruktion speichern. Zudem sind RRAMs ungewöhnlich schnell bei niedrigem Energieverbrauch. Ferner können Rechnungen mit diesen synaptischen Gewichten im Speicher ohne Abrufung von Daten ausgeführt werden. Während DNN-Netze mit RRAM-Zellen aufwendige digital-zu-analog und analog-zu-digital Konverter erfordern, sind SNN-Netze digital-analog kompatibel – wie ein biologisches Nervensystem.

Mathematisch lässt sich die zeitliche Dynamik eines neuronalen Netzes durch gewöhnliche Differenzialgleichungen (ODE = ordinary differential equation) modellieren (Brette et al. 2007; Fang et al. 2021):

$\tau \frac{dv(t)}{dt}=-v(t)+\sum \limits_i^M{w}_i{x}_i(t)$

$v(t)\leftarrow {v}_{rest},\mathrm{falls}\ v(t)={V}_{th}$

mit Potenzial v(t) der neuronalen Membran, Zeitkonstante τ, Input x_i der i-ten Synapse, Synapsengewicht w_i, Anzahl M der Synapsen, Schwellenwert (threshold) V_th und Restpotenzial v_rest, wobei vereinfacht v_rest = 0 gesetzt wird. Wenn das Membranpotenzial v(t) den Schwellenwert V_th überschreitet, wird v(t) auf das Restpotenzial v_rest gesetzt. Man spricht dann auch von einem (harten) Reset.

Um die zeitliche Dynamik eines SNN-Systems in Spikes umzuwandeln, wird ein Spike-Response Modell (SRM) eingeführt (Gerstner et al. 2014). Für M = 1, Anfangsbedingung v(0) = 0 und einem Puls als Input ergibt sich $k(t)={e}^{\frac{-t}{\tau }}$ als Kernel.¹ Für ein Neuron mit M Input-Synapsen erhält man dann als post-synaptisches Potential

$PSP(t)=\sum \limits_i^M{w}_i{\int}_0^{\infty }k(t){x}_i\left(t-s\right) ds$

ohne Reset. Spikes lassen sich mit Hilfe eines Reset-Kernels wie z. B. $h(t)={e}^{\frac{-t}{\tau_r}}$ mit einer Zeitkonstanten τ_r einführen. Dann erhält die zeitliche Entwicklung des Membrampotenzials v(t) die Form

$v(t)=-\vartheta {\int}_0^{\infty }h(t)O\left(t-s\right) ds+\sum \limits_i^M{w}_i{\int}_0^{\infty }k(t){x}_i\left(t-s\right) ds,$

wobei O(t) = ∑ δ(t − t^f) mit t^f ∈ {t^f| v(t^f) ≥ V_th} eine Folge von (zeitverschobenen) Deltafunktionen, die den Spikes des Outputs entsprechen, und ϑ die Stärke der Resetladung sind. Die Addition einer Ladung lässt sich leichter realisieren als ihre Subtraktion. Deshalb wird die Gleichung für v(t) umgeschrieben zu

$PSP(t)=\sum \limits_i^M{w}_i{\int}_0^{\infty }k(t){x}_i\left(t-s\right) ds$

$r(t)=\vartheta {\int}_0^{\infty }h(t)O\left(t-s\right) ds$

$O(t)=\sum \delta \left(t-{t}^f\right)\ \mathrm{mit}\ {t}^f\in \left\{{t}^f|v\left({t}^f\right)\ge {V}_{th}+r(t)\right\},$

wobei r(t) die Amplitude der Resetladung ist. In dieser Form wird das postsynaptische Potenzial PSP(t) nicht mit einem festen Schwellenwert, sondern mit dem zeitlich variierenden Schwellenwert V_th + r(t) verglichen, der sich adaptiv zur Spikeaktivität des Outputs verändert.

Dieses mathematische Spikemodell mit Deltafunktionen lässt sich auch physikalisch interpretieren. Eine physikalische Interpretation erklärt die Fähigkeit des Neurons, sich an Information zu erinnern, und die Struktur des Schaltkreisentwurfs. Die Kernel k(t) und h(t) entsprechen physikalisch Tiefpass (low-pass) – Filter 1. Ordnung. In der Elektronik lassen Tiefpass-Filter die Signalanteile mit Frequenzen unterhalb ihrer Grenzsequenz annähernd ungeschwächt passieren und dämpfen Anteile mit höheren Frequenzen. Im einfachsten Fall besteht ein Tiefpass aus einer Widerstand (R = Resistor)-Kondensator (C = Condensator) Schaltung. Durch Hintereinanderschaltung von mehreren Tiefpässen kann dessen Ordnung erhöht werden. Ein Neuron mit M Synapsen wird als (M + 1)-Filter aufgefasst. Dabei wird das Gedächtnis eines Neurons auf Filter verteilt.

In einem nächsten Schritt lässt sich ein Trainingsalgorithmus mit BPTT (Backpropagation through Time) einführen, um SNN-Netze zu trainieren, zeitliche Muster zu erlernen (Brette et al. 2007). Das digitale Gegenstück zu den Filtern k(t) und h(t) lautet im diskreten Zeitbereich

$k\left[t\right]={e}^{\frac{-t}{\tau }}k\left[t-1\right]+x\left[t\right]$

(1a)

$h\left[t\right]={e}^{\frac{-t}{\tau_r}}h\left[t-1\right]+O\left[t-1\right]$

(1b)

mit t ∈ ℤ₀ (t ≥ 0). Daher lassen sich die Integralgleichungen (i)-(iii) in Differenzengleichungen eines Algorithmus übersetzen:

${\boldsymbol{v}}_{\boldsymbol{l}}\left[t\right]={\boldsymbol{g}}_l\left[t\right]-\vartheta {\boldsymbol{h}}_l\left[t\right]$

(2)

${\boldsymbol{g}}_l\left[t\right]={\boldsymbol{W}}_l{\boldsymbol{k}}_l\left[t\right]$

(3)

${\boldsymbol{h}}_l\left[t\right]={e}^{\frac{-t}{\tau_r}}{\boldsymbol{h}}_l\left[t-1\right]+{\boldsymbol{O}}_l\left[t-1\right]$

(4)

${\boldsymbol{k}}_l\left[t\right]={e}^{\frac{-t}{\tau }}{\boldsymbol{k}}_l\left[t-1\right]+{\boldsymbol{O}}_{l-1}\left[t\right]$

(5)

${\boldsymbol{O}}_l\left[t\right]=U\left({\boldsymbol{v}}_{\boldsymbol{l}}\left[t\right]-{V}_{th}\right)$

(6)

$U(x)=0,x<0,\mathrm{andernfalls}\ 1$

(7)

mit Schichtindex l, Gewichtsmatrix ${\boldsymbol{W}}_l\boldsymbol{\in}{\mathbb{R}}^{{\boldsymbol{N}}_{\boldsymbol{l}}-{\boldsymbol{N}}_{\boldsymbol{l}-\mathbf{1}}}$ , gewichtetem Input (PSP) g_l[t], neuronalem Output O_l[t] zum Zeitpunkt t und Heaviside Schrittfunktion U(x).

Wie (i)-(iii) können die Gl. (2), (6) und (7) als adaptiver Schwellenwert aufgefasst werden:

$O\left[t\right]=1,\mathrm{falls}\ g\left[t\right]>\vartheta h\left[t\right]+{V}_{th},\mathrm{andernfalls}\ 0.$

(8)

Die Gl. (2), (3), (4), (5), (6) und (7) haben eine rekursive Form, die dem Ablauf im Netzwerk von Abb. 5 entspricht (Fang et al. 2021, nach Fig. 2):

Abb. 5
Rekursiver Trainingsalgorithmus für zeitliche Muster. (Fang et al. 2021, nach Fig. 2)

Die Delta-Funktionen der Spikes entwickeln sich dann rekursiv mit

${\boldsymbol{\delta}}_l\left[t\right]={\boldsymbol{W}}_{\boldsymbol{l}+\mathbf{1}}^{\mathrm{T}}\left({\boldsymbol{\epsilon}}_{\boldsymbol{l}+1}\left[t\right]{\boldsymbol{\delta}}_{l+1}\left[t\right]\right)-\vartheta {\boldsymbol{\delta}}_l\left[t+1\right]{\boldsymbol{\epsilon}}_{\boldsymbol{l}}\left[t+1\right],$

(9)

wobei ${\boldsymbol{\epsilon}}_{\boldsymbol{l}}\left[t\right]=\frac{\partial U\left({\boldsymbol{v}}_{\boldsymbol{l}}\left[t\right]-\vartheta \right)}{\partial {\boldsymbol{v}}_{\boldsymbol{l}}\left[t\right]}$ .

Der Hardware Design, auf dem dieser Trainingsalgorithmus funktioniert, ist in Abb. 6 dargestellt: Eine Reihe von synaptischen Filtern empfängt zeitlich variierende Spikefolgen als Input mit Filter k(t). Der Output der synaptischen Filterreihe wird in ein Kreuzgitter (crossbar) überführt, um die der Gl. (3) entsprechende Matrix-Vektor Multiplikation durchzuführen. Die sich ergebenden postsynaptischen Potenziale PSP werden mit Schwellenwerten im neuronalen Schaltkreis verglichen. Output Spikes des neuronalen Schaltkreises werden zur synaptischen Filterreihe der nächsten neuronalen Schicht weitergeleitet.

Abb. 6
Hardware des SNN Netzwerks zum Lernen zeitlicher Muster mit zeitlich kodierten Spikefolgen als Input, synaptischen Filtern (SF), die Spikes in postsynaptische Potenziale (PSP) umwandeln, Kreuzgitter (crossbar) zur Vektor-Matrixmultiplikation und Neuronen mit neuronalen Schaltkreisen (NS), die gewichtete PSP mit einem Schwellenwert vergleichen und den Output als Spikefolge erzeugen. (Fang et al. 2021, nach Fig. 2)

Als Beispiel wird ein vollständig verbundenes Netzwerk der Größe 700 (Input)-500-500-300 gewählt. Das Ziel besteht darin, dass Netzwerk zu trainieren, ein bestimmtes räumliches und zeitliche Muster zu erzeugen, wenn ein anderes Muster als räumliches zeitliches Muster gegeben ist. Per Zufall werden 1000 Beispiele von Inputmustern aus einem Datenset ausgewählt. Dann werden handgeschriebene Ziffern 0 bis 9 in Spikemuster konvertiert, wobei einem Pixel (x, y) ein Spike in der y-ten Spikefolge zum Zeitpunkt x entspricht. Der Input besteht aus 700 Spikefolgen der Länge 300. Der Zieloutput hat 300 Spikefolgen derselben Länge. Das Netzwerk wird trainiert, die entsprechenden handgeschriebenen Zahlenmuster auszugeben, wenn ein Datenset gegeben ist. Wenn z. B. ein auditives Hörbeispiel der Ziffer 3 gegeben ist, dann wird ein Spikemuster erzeugt, das der handgeschriebenen Ziffer 3 ähnelt. Der graphischen Darstellung repräsentiert die x-Achse die Zeit, die y-Achse den Spike-Trainingsindex. Ein Punkt mit Koordinate (x, y) repräsentiert einen Input/Output-Spike in der y-ten Spikefolge zum Zeitpunkt x. Dieses Beispiel zeigt den Vorteil des vorgestellten Trainingsalgorithmus. Damit kann ein SNN-Netz trainiert werden, ein präzises Spike-Timing zu lernen, das neuartige Anwendungen jenseits einfacher statischer Bildklassifikationen ermöglicht.

Zusammengefasst zeigt sich, wie Lernalgorithmen des Machine Learning auf memristiver Hardware mit neuromorpher Rechenarchitektur realisiert werden können. Komplexe raum-zeitliche Muster können durch neuronale Netze mit Spike-Kodierung erlernt werden. Eine nächste Zukunftsperspektive besteht darin, Neurocomputing mit Quantencomputing zu verbinden. Die gemeinsame Basis bildet die Photonik, wonach Quantenzustände von Lichtteilchen (Photonen) nach den Gesetzen der Quantenphysik in Superpositionen in Quantenbits überlagert werden können. Diese Überlagerungen ermöglichen den Quantenparallelismus mit gigantischen Verkürzungen der Rechenzeit. Damit würde ein „Lichtgehirn“ möglich, dass durch „Rechnen mit Licht“ die Vorteile des am Gehirn orientierten Neurocomputing mit den Vorteilen des Quantencomputing verbindet.

Literatur

Backus, J. 1978. Can programming be liberated from the von Neumann style? ACM 0001-0782/78/0800-0613.
Banerjee, R., und B. K. Chakrabarti. 2008. Models of brain and mind. physical, computational, and psychological approaches. Amsterdam: Progress in Brain Research.
Brette, R., M. Rudolph, T. Carnevale, M. Hines, D. Beeman, J. M. Bower, M. Diesmann, A. Morrison, P. H. Goodman, F. C. Harris, et al. 2007. Simulation of networks of spiking neurons: A review of tools and strategies. Journal of Computational Neuroscience 23(3): 349–398.Crossref
Chua, L. 1971. Memristor: The missing circuit element. IEEE Transactions on Circuit Theory 18(5): 507–519.Crossref
Chua, L. 2014. If it’s pinched it’s a memristor. Semiconductor Science and Technology 29(10): 104001–1040042.Crossref
Fang, H., B. Taylor, Z. Li, Z. Mei, H. Li, und Q. Qiu. 2021. Neuromorphic algorithm-hardware codedesign for temporal pattern learning. In ArXiv:2104 [cs.AR], 7 May 2021.
Gerstner, W., W. M. Kistler, R. Naud, und L. Paninski. 2014. Neuronal dynamics: From single neurons to networks and models of cognition. Cambridge: Cambridge University Press.Crossref
Kickuth, R. 2021. Bio-inspired Computing. Gehirn-künstliche Neuronetze – neuromorphe Architekturen … und wie es weitergeht: Photonik-Quantencomputer-Evolution. Agentur und Verlag Rubikon.
Mainzer, K. 2007. Thinking in Complexity, 5. Aufl. Berlin: Springer.
Mainzer, K. 2019. Künstliche Intelligenz. Wann übernehmen die Maschinen? 2. Aufl. Berlin: Springer.Crossref
Mainzer, K. 2024. Artificial Intelligence of Neuromorphic Systems. World Scientific Singapore 2024.
Mainzer, K., und L. Chua. 2013. Local activity principle. London: Imperial College Press.Crossref
Mirsa, J., und J. Saha. 2010. Artificial networks in hardware: A survey of two decades of progress. Neurocomputing 74(1–3): 239–255.
NeuroSys. 2021. BMBF-Zukunftscluster neuromorphe Hardware für autonome Systeme der Künstlichen Intelligenz. Projektpapier, S. 14–15.
Sah, M. P., H. Kim, und L. O. Chua. 2014. Brains are made of memristors. IEEE Circuits and Systems Magazine 14(1): 12–36.Crossref
Schölkopf, B., und A. J. Smola. 2002. Learning with Kernels. Cambridge, MA: MIT Press.
Shasin, B. J., A. N. Tait, T. F. de Lima, W. H. P. Pernice, H. Bhaskaran, C. D. Wright, und P. R. Prucnal. 2020. Photonics for artificial intelligence and neuromorphic computing. In arXiv 2011.001111.
Tetzlaff, R., Hrsg. 2014. Memristors and memristive systems. Berlin: Springer.
Williams, R. Stanley. 2008. How we found the missing memristor. IEEE Spectrum 45(12): 28–35.Crossref