Eine schlechte Nachricht habe ich dir schon übermittelt: Du wirst für wahrscheinliche Wahrheiten zukünftig mehr Geld zahlen müssen als heute. In diesem Kapitel kommt eine weitere schlechte Nachricht hinzu. Obwohl, eigentlich sind es sogar drei.

Generative künstliche Intelligenz gründet auf der Verarbeitung unendlich großer Datenmengen dessen, was Menschen in der Vergangenheit geschrieben, gesagt, gemalt oder gemacht haben. In den wenigsten Fällen wurde für diese Daten bezahlt. Man könnte also sagen, dass generative künstliche Intelligenz einer der größten Raubzüge in der Geschichte der Menschheit ist. «Was soll’s?», könntest du antworten. «Das interessiert mich nicht. Ist doch eher das Problem von Verlagen, Illustratorinnen, Autoren und Musikern. Und die wurden ja wohl schon einmal bezahlt, als ihre Arbeit in der Vergangenheit veröffentlicht wurde.» Da wären wir zwar unterschiedlicher Meinung, aber geschenkt. Was dir allerdings nicht schmecken wird, ist, dass du selbst in großem Umfang zum Datenlieferanten für Technologiekonzerne wirst, wenn du die Annehmlichkeiten einer synthetisch-medialen Zukunft nutzen möchtest. Das ist die schlechte Botschaft Nummer zwei. Die schlechte Botschaft Nummer drei ist: Du kannst es dir gar nicht aussuchen. Aber alles der Reihe nach.

 

ChatGPT 4: «Der kritischste Faktor für das Scheitern digitaler Innovationsprojekte im Mittelstand ist oft das Fehlen einer integrierten Digitalstrategie, die eng mit dem Kerngeschäft verknüpft ist. Im Mittelstand herrscht häufig eine ‹Hands-on›-Mentalität, die zwar operativ stark ist, aber strategische Weitsicht missen lässt. Ressourcen sind zudem begrenzt: Zeit, Geld und Expertise fließen nicht im Übermaß. Diese Limitationen erhöhen das Risiko, dass Projekte unkoordiniert und ohne klare Zielsetzung angegangen werden, was zu Fehlinvestitionen und Enttäuschungen führt. In einem solchen Kontext kann die Digitalisierung, statt einen Wettbewerbsvorteil zu schaffen, zur Belastungsprobe werden.»

 

Damit ChatGPT so scheinbar kluge Antworten geben kann, muss es vorher mit klugen Sätzen von Menschen trainiert werden. Vielen klugen Sätzen von vielen klugen Menschen. Was läge da näher, als Bücher zu nehmen. GPT wurde laut OpenAI unter anderem mit zwei «internetbasierten Buch Korpora» trainiert, die man «Books1» und «Books2» nennt. Das sind riesige Textsammlungen mit Millionen von Büchern und Artikeln. Auch solchen, die vergriffen, schwer zu beschaffen und kostenpflichtig sind. Bei vielen dieser Datenquellen, die seit 2008 online sind, wird von Wissenschaftlern vermutet, dass sie auch verbotenerweise urheberrechtlich geschütztes Material enthalten. Der europäische Schriftstellerverband spart deshalb nicht mit

Das ist eine Ansage. Leider keine, die bislang bei den Technologiefirmen ankommt. Oder bei den Nutzerinnen und Nutzern. Elon Musk hatte angekündigt, alle Daten der Plattform X, ehemals Twitter, als Trainingsmaterial für seine eigene künstliche Intelligenz zu nutzen. Das beinhaltet wahrscheinlich Milliarden von Fotos, Texten, Videos, manchmal ohne rechtliche Grundlage hochgeladen. Nach den Nutzungsbedingungen ist Musks Vorhaben auch gar kein Problem, denn fast alle Nutzenden ignorieren fast immer: Technologiefirmen lassen sich weitreichende Rechte an allen Daten garantieren, die Nutzende über ihre Plattform fließen lassen. Die Social-Media-Plattformen selbst verbieten übrigens, dass ihre Daten automatisch ausgelesen und gespeichert werden. Sie scheinen mehr Ahnung davon zu haben, wie hoch der Wert von Daten ist. In einer aufwendigen Analyse hat die Washington Post den kompletten Trainingsdatensatz Google C4 untersucht, mit dem etliche große Sprachmodelle, darunter LlaMA von Facebook, trainiert wurden. Darunter waren die New York Times, The Guardian, Wikipedia, Kickstarter, Patreon, aber auch die

Das macht einerseits deutlich, dass jedes Basismodell im Kern auch auf widersprüchlichen, in manchen Ländern womöglich illegalen oder problematischen Inhalten basiert. Vor allem aber zeigt es, mit welcher Akribie dieser riesige Staubsauger die Inhalte des freien Internets eingesaugt hat, ohne dabei auf Urheberrechte, Kontexte, faire Bezahlung Rücksicht zu nehmen. Über 200 Millionen Mal wurde das Copyright-Symbol bei Datenquellen gefunden. Und ignoriert. Die Klärung möglicher Ansprüche der Urheberinnen und Besitzer dieser Inhalte wird die Gerichte noch etliche Jahre beschäftigen. So verklagte etwa die New York Times OpenAI und Microsoft im Dezember 2023 und argumentierte, dass diese Millionen von Artikeln unrechtmäßig als Trainingsmaterial genutzt hätten.

Ähnlich sieht es beim Training von Bildmodellen aus: So klagte die Bilddatenbank Getty Images gegen Stability AI, diese hätte unrechtmäßig Millionen von Bildern von ihrer Website zu Trainingszwecken gespeichert. Der Verstoß gegen die Nutzungsbedingungen war aufgefallen, weil Stability AI Bilder generiert hatte, die das typische Wasserzeichen von Getty verzerrt enthielten – ein klarer Hinweis darauf, dass der Algorithmus glaubte, zu einer bestimmten Sorte Bild gehöre ein solches Wasserzeichen dazu.

Viele Datenbanken wachsen einfach dadurch, dass Programme automatisch durch das Internet fliegen und die