Können Sie sich noch an den Rinderwahnsinn erinnern? Die Hausrinder hatten sich mit der Tierseuche BSE infiziert, weil sie mit Tiermehl aus Schlachtabfällen und verendeten oder erkrankten Schafen, darunter deren mit Scrapie infizierten Gehirnen, gefüttert wurden. Derart erkrankt, spielten sie verrückt, griffen andere an und machten absurde Bewegungen und Geräusche. Algorithmen kann es genauso gehen. Die «Mad Cow Disease» in der künstlichen Intelligenz bezieht sich darauf, dass KI-Systeme bei der Interpretation von Daten versagen können, wenn die Modelle vorher mit synthetischen Daten gefüttert werden, also Daten, die nicht aus der realen Welt stammen, sondern künstlich erzeugt wurden. Synthetische Daten werden oft im Training eingesetzt, um Lücken bei realen Daten zu füllen. Das führt jedoch immer häufiger zu Problemen. Ähnlich wie bei einer Kuh, die mit minderwertigem Futter gefüttert wird, kann die Gesundheit der KI durch synthetische Daten beeinträchtigt werden – sie produziert unzuverlässige oder gar schädliche Ergebnisse. Stellen Sie sich vor, eine KI wird darauf trainiert, medizinische Diagnosen zu stellen. Wenn die zugrunde liegenden synthetischen Daten nicht die komplexen Nuancen der menschlichen Physiologie und Pathologie reflektieren, könnte die KI dazu neigen, Diagnosen zu stellen, die weit von der Realität entfernt sind. Das könnte bedeuten, dass Menschen fälschlicherweise als krank oder gesund eingestuft werden, mit potenziell lebensbedrohlichen Konsequenzen. KI-BSE manifestiert sich aber nicht nur in spezialisierten Anwendungen; es kann auch im Alltag auftauchen. Wenn Nachrichtensysteme mit synthetischen Daten trainiert werden, die etwa bestimmte Ideologien, Vorurteile oder Falschinformationen widerspiegeln, kann dies zu einer verzerrten öffentlichen Wahrnehmung führen. Eine Infodemie, also eine Flut von Fehlinformationen, könnte durch KIs, die mit problematischen synthetischen Daten gefüttert wurden, noch verschlimmert werden.
Es ist deshalb von entscheidender Bedeutung, die Qualität der Daten, mit denen KIs trainiert werden, sorgfältig zu überwachen. Ironischerweise könnte dies zumindest in den folgenden Jahren zu einer regelrechten Jagd auf echte, menschengemachte Qualitätsinhalte führen. Ich stelle mir vor, dass Technologieunternehmen Höchstpreise für die Arbeit von Autorinnen oder Journalisten zahlen. Nicht etwa, weil diese Artikel gelesen würden, sondern weil sie Qualitätsfutter für Algorithmen darstellen. Ich sehe vor mir, wie Meta synthetische Inhalte auf den eigenen Plattformen kenntlich macht, damit nur echte Nutzerinhalte für die eigenen Systeme als Trainingsdaten herangezogen werden können. Ich denke mir aus, dass der Suchmaschinenbetreiber Baidu in China die kompletten Musikkataloge oder Filmdatenbanken von Studios aufkauft, nur um zu verhindern, dass auch andere Firmen ihre Algorithmen anhand dieser Meisterwerke trainieren.