Gestohlene Intelligenz

Eine schlechte Nachricht habe ich dir schon übermittelt: Du wirst für wahrscheinliche Wahrheiten zukünftig mehr Geld zahlen müssen als heute. In diesem Kapitel kommt eine weitere schlechte Nachricht hinzu. Obwohl, eigentlich sind es sogar drei.

Generative künstliche Intelligenz gründet auf der Verarbeitung unendlich großer Datenmengen dessen, was Menschen in der Vergangenheit geschrieben, gesagt, gemalt oder gemacht haben. In den wenigsten Fällen wurde für diese Daten bezahlt. Man könnte also sagen, dass generative künstliche Intelligenz einer der größten Raubzüge in der Geschichte der Menschheit ist. «Was soll’s?», könntest du antworten. «Das interessiert mich nicht. Ist doch eher das Problem von Verlagen, Illustratorinnen, Autoren und Musikern. Und die wurden ja wohl schon einmal bezahlt, als ihre Arbeit in der Vergangenheit veröffentlicht wurde.» Da wären wir zwar unterschiedlicher Meinung, aber geschenkt. Was dir allerdings nicht schmecken wird, ist, dass du selbst in großem Umfang zum Datenlieferanten für Technologiekonzerne wirst, wenn du die Annehmlichkeiten einer synthetisch-medialen Zukunft nutzen möchtest. Das ist die schlechte Botschaft Nummer zwei. Die schlechte Botschaft Nummer drei ist: Du kannst es dir gar nicht aussuchen. Aber alles der Reihe nach.

ChatGPT 4: «Der kritischste Faktor für das Scheitern digitaler Innovationsprojekte im Mittelstand ist oft das Fehlen einer integrierten Digitalstrategie, die eng mit dem Kerngeschäft verknüpft ist. Im Mittelstand herrscht häufig eine ‹Hands-on›-Mentalität, die zwar operativ stark ist, aber strategische Weitsicht missen lässt. Ressourcen sind zudem begrenzt: Zeit, Geld und Expertise fließen nicht im Übermaß. Diese Limitationen erhöhen das Risiko, dass Projekte unkoordiniert und ohne klare Zielsetzung angegangen werden, was zu Fehlinvestitionen und Enttäuschungen führt. In einem solchen Kontext kann die Digitalisierung, statt einen Wettbewerbsvorteil zu schaffen, zur Belastungsprobe werden.»

Damit ChatGPT so scheinbar kluge Antworten geben kann, muss es vorher mit klugen Sätzen von Menschen trainiert werden. Vielen klugen Sätzen von vielen klugen Menschen. Was läge da näher, als Bücher zu nehmen. GPT wurde laut OpenAI unter anderem mit zwei «internetbasierten Buch Korpora» trainiert, die man «Books1» und «Books2» nennt. Das sind riesige Textsammlungen mit Millionen von Büchern und Artikeln. Auch solchen, die vergriffen, schwer zu beschaffen und kostenpflichtig sind. Bei vielen dieser Datenquellen, die seit 2008 online sind, wird von Wissenschaftlern vermutet, dass sie auch verbotenerweise urheberrechtlich geschütztes Material enthalten. Der europäische Schriftstellerverband spart deshalb nicht mit deutlichen Worten: «Der Erfolg der generativen KI im Buchbereich basiert auf Diebstahl.» Für den Verband ist klar: «Ohne rechtliche Regulierung beschleunigen und ermöglichen generative Technologien die Ausweitung der Ausbeutung, die Legitimierung von Urheberrechtsverletzungen, Klimaschädigung, Diskriminierung, Informations- und Kommunikationsverzerrung, Identitätsdiebstahl, Rufschädigung, Blacklisting, Tantiemenbetrug und Betrug bei der kollektiven Lizenzvergabe.»

Das ist eine Ansage. Leider keine, die bislang bei den Technologiefirmen ankommt. Oder bei den Nutzerinnen und Nutzern. Elon Musk hatte angekündigt, alle Daten der Plattform X, ehemals Twitter, als Trainingsmaterial für seine eigene künstliche Intelligenz zu nutzen. Das beinhaltet wahrscheinlich Milliarden von Fotos, Texten, Videos, manchmal ohne rechtliche Grundlage hochgeladen. Nach den Nutzungsbedingungen ist Musks Vorhaben auch gar kein Problem, denn fast alle Nutzenden ignorieren fast immer: Technologiefirmen lassen sich weitreichende Rechte an allen Daten garantieren, die Nutzende über ihre Plattform fließen lassen. Die Social-Media-Plattformen selbst verbieten übrigens, dass ihre Daten automatisch ausgelesen und gespeichert werden. Sie scheinen mehr Ahnung davon zu haben, wie hoch der Wert von Daten ist. In einer aufwendigen Analyse hat die Washington Post den kompletten Trainingsdatensatz Google C4 untersucht, mit dem etliche große Sprachmodelle, darunter LlaMA von Facebook, trainiert wurden. Darunter waren die New York Times, The Guardian, Wikipedia, Kickstarter, Patreon, aber auch die

Das macht einerseits deutlich, dass jedes Basismodell im Kern auch auf widersprüchlichen, in manchen Ländern womöglich illegalen oder problematischen Inhalten basiert. Vor allem aber zeigt es, mit welcher Akribie dieser riesige Staubsauger die Inhalte des freien Internets eingesaugt hat, ohne dabei auf Urheberrechte, Kontexte, faire Bezahlung Rücksicht zu nehmen. Über 200 Millionen Mal wurde das Copyright-Symbol bei Datenquellen gefunden. Und ignoriert. Die Klärung möglicher Ansprüche der Urheberinnen und Besitzer dieser Inhalte wird die Gerichte noch etliche Jahre beschäftigen. So verklagte etwa die New York Times OpenAI und Microsoft im Dezember 2023 und argumentierte, dass diese Millionen von Artikeln unrechtmäßig als Trainingsmaterial genutzt hätten.

Ähnlich sieht es beim Training von Bildmodellen aus: So klagte die Bilddatenbank Getty Images gegen Stability AI, diese hätte unrechtmäßig Millionen von Bildern von ihrer Website zu Trainingszwecken gespeichert. Der Verstoß gegen die Nutzungsbedingungen war aufgefallen, weil Stability AI Bilder generiert hatte, die das typische Wasserzeichen von Getty verzerrt enthielten – ein klarer Hinweis darauf, dass der Algorithmus glaubte, zu einer bestimmten Sorte Bild gehöre ein solches Wasserzeichen dazu.

Viele Datenbanken wachsen einfach dadurch, dass Programme automatisch durch das Internet fliegen und die Inhalte von frei verfügbaren Websites aufsaugen (scrapen). Wenn sich ganz besondere Inhalte in Trainingsdaten wiederfinden, fällt das selten auf. In den meisten Fällen wird der Diebstahl unbemerkt bleiben. Die Vertretungsorganisationen von Fotografen, Autorinnen oder anderen Kreativschaffenden schlagen deshalb Alarm. Zu Recht wie ich finde. Wenn ein Magazin wie brand eins oder eine Zeitung wie die Frankfurter Allgemeine ein Foto oder eine Illustration verwendet, kauft sie für diese Verwendung die Rechte ein. Meist sind diese Rechte für einen besonderen Einsatzzweck oder sogar Zeitraum limitiert. So verdienen der Fotograf oder die Illustratorin Geld. Warum sollte es Technologiefirmen gestattet sein, genau diese Inhalte zu verwenden, ohne dafür zu zahlen? Es ist ja auch nicht so, dass es in diesem Fall einen Armen treffen würde! Als Lösung werden aber nur kleine Trostpflaster gehandelt. So kündigte Shutterstock, der amerikanische Anbieter von Stockfotos und -videos, eine Partnerschaft mit OpenAI und ein neues Tool an, das Bilder nach Textanweisungen erstellen kann. Shutterstock wollte damit «einen Fonds zur Entschädigung von Künstlern» einrichten, die «zur Entwicklung der KI-Modelle beigetragen haben». Das erinnert mich daran, dass Tech-Gründer (ja, leider meist Männer) zu den stärksten Verfechtern eines Grundeinkommens zählen, da sie wohl davon ausgehen, dass die meisten Jobs auf dieser Erde früher oder später aufgrund ihrer eigenen Geschäftstätigkeit obsolet sein werden.