Vorträge zu KI brachten mich auf viele Veranstaltungen mit ganz unterschiedlichen Menschen. Ich diskutierte mit Familien in Volkshochschulen, mit Rentnerinnen in Stadtbibliotheken, mit Mönchen in einem Kloster, mit jungen Marketing-Expertinnen oder mit Vorständen von DAX-Konzernen. Ihre Hintergründe konnten unterschiedlicher nicht sein. Und doch landeten alle Diskussionen früher oder später bei der gleichen bangen Frage: Können Maschinen eines Tages ebenso kreativ sein wie Menschen? Meine beruhigende Standardantwort war damals, vor nur wenigen Jahren: «Nein, denn sie imitieren nur, was Menschen vorher geschaffen haben.» Heute würde ich die Frage anders beantworten, doch dazu gleich.
Zwischen der ersten Nennung des Begriffs «Künstliche Intelligenz» und der rasanten Verbreitung sogenannter generativer KI, wie DALL-E oder ChatGPT, liegen mehr als 60 Jahre. Während des größten Teils dieser Jahrzehnte gab es für uns Schachprogramme und bessere Taschenrechner zu sehen. Erst in den 1990er-Jahren kamen die ersten wirklichen Fortschritte. Dank verbesserter Computertechnologie entstanden leistungsfähige neuronale Netzwerke, die erstmals das Lernen von Daten ermöglichten. Diese Systeme waren gut in der Mustererkennung, aber das war es dann auch. Mit den 2010er-Jahren kam Deep Learning hinzu: Ein tiefes neuronales Netzwerk hatte plötzlich die Fähigkeit, nicht nur Katzen- von Hundebildern zu unterscheiden, sondern erstmals auch Gesichter von Menschen zu generieren, die gar nicht existierten. Am Anfang waren das grob verpixelte Miniaturen, die oft eher an moderne Kunst erinnerten als an Fotografie. Manchmal hatten sie drei Ohren, manchmal Zähne dort, wo Augen sein sollten. Und dennoch: Erstmals hatten Algorithmen von sich aus Abbilder von Menschen erzeugt. Wie war das möglich geworden? Generative Modelle wie GANs (Generative Adversarial Networks) und Variational Autoencoders waren der Schlüssel. Sie wurden so trainiert, dass sie nicht nur Daten klassifizieren, sondern auch neue, ähnliche Daten generieren können. Sie lernten Texte zu schreiben, Bilder zu zeichnen und sogar Musik zu komponieren.
Ein großer technologischer Durchbruch gelang mit den sogenannten Sprachmodellen. GPT etwa ist das Bekannteste und wurde entwickelt von OpenAI, LaMDA stammt von Google, LLaMA von Meta, Claude von Anthropic. Das sind hoch entwickelte Systeme auf der Basis maschinellen Lernens, die darauf spezialisiert sind, menschliche Sprache zu verstehen und zu generieren. Der Lernprozess beginnt mit der Sammlung einer großen Menge an Textdaten aus diversen Quellen wie Büchern, Websites und wissenschaftlichen Artikeln. Diese Daten dienen als Grundlage für das Training des Modells. Im Kern bestehen Sprachmodelle aus neuronalen Netzen mit einer bestimmten Architektur. GPT-4 verwendet beispielsweise eine Architektur, die darauf ausgelegt ist, die komplexen Beziehungen zwischen Wörtern und Phrasen in einem Text zu erfassen. Während des Trainings versucht das Modell, Muster in den Daten zu erkennen. Es lernt, wie Worte und Sätze in der menschlichen Sprache üblicherweise strukturiert sind, und analysiert Wahrscheinlichkeiten für die Beziehungen zwischen verschiedenen Worten. Zum Beispiel lernt es so, dass das Wort Katze oft in der Nähe von Worten wie Tier, streicheln oder füttern erscheint. Nachdem das Training abgeschlossen ist, wird das Modell mit einem neuen, unbekannten Datensatz getestet. Dies gibt den Leuten in den Entwicklungsabteilungen dann eine Vorstellung davon, wie gut das Modell mit neuen Daten arbeiten kann. Am Ende kann so ein Modell dann für verschiedene Anwendungen eingesetzt werden, von der Generierung von Roman- und Brieftexten über die Übersetzung bis hin zur Beantwortung von Fragen. Verbessert werden diese Systeme entweder durch das Training mit neuen Daten oder durch eine Anpassung ihrer Parameter, ihrer Architektur und nicht zuletzt auch durch die verwendete Hardware.
Ähnlich funktionieren Bildgeneratoren, wie etwa Midjourney oder DALL-E, nur dass sie anstatt Sprache Bilder erstellen können. Hinzu kommt, dass auch Standardsoftware wie Adobe Photoshop, Microsoft Office oder Google Workspace die Integration von Text- und Bildgeneratoren in ihre Programme einbauen. Was im November 2022 mit der ersten öffentlichen Version von ChatGPT startete, hat sich innerhalb kürzester Zeit zu einer Massenbewegung entwickelt, der sich kein Softwareanbieter oder Plattformbetreiber mehr entziehen kann. Ebenso sieht es mit uns Nutzern und Unternehmen aus. Sie erinnern sich an meinen Freund, den Lehrer? «Wenn in einer Schulklasse 80 Prozent der Schülerinnen und Schüler generative KI verwenden, müssen auch die übrigen 20 Prozent nachziehen, um nicht deutlich schlechtere Ergebnisse abzuliefern.» Heimlich werden so Inhalte, die von Algorithmen assistiert erstellt und bearbeitet wurden, zum neuen Standard.