Ich erinnere mich noch gut daran, wie schockiert ich war, als ich einen Chief Risk Officer einer Bank zu den wichtigsten Risikofaktoren befragte, die sie bei der Kreditvergabe berücksichtigt, und eines der ersten Dinge, die sie sagte, war, dass Homosexuelle „offensichtlich“ riskant seien (und daher als Kreditnehmer vermieden werden sollten).
Während ein Teil meines Gehirns heftig darüber debattierte, ob ich die offensichtlich intelligente und gebildete Frau mit all den Argumenten konfrontieren sollte, warum ich dies für eine schreckliche Voreingenommenheit hielt, dachte ein anderer Teil meines Gehirns über das nach, was ich vor meiner Reise über ihr Land gelesen hatte – insbesondere, dass Homosexuelle in diesem Land einem hohen Risiko ausgesetzt waren, durch Hassverbrechen getötet zu werden, und nur selten ein hohes Alter erreichten. Wie schrecklich diese Praxis auch sein mochte, so musste ich doch zugeben, dass es schlicht vernünftig war, einem Kunden, von dem man befürchtete, dass er jeden Tag umgebracht werden könnte, kein Geld zu leihen, und dass alles andere eine grobe Nachlässigkeit gewesen wäre.
Es stellte sich zwar heraus, dass die Bank keine Daten über die sexuelle Orientierung ihrer Kunden hatte und daher dieses Attribut nicht in den von uns für die Bank entwickelten Algorithmus einfließen konnte, aber die Frage, wie man mit einem Algorithmus umgeht, der eine schreckliche gesellschaftliche Voreingenommenheit widerspiegelt, wurde dadurch definitiv real und persönlich. Dies ist eine gute Gelegenheit, einen Schritt zurückzutreten und zu bedenken, dass Algorithmen weder ein Gott noch ein Chef sind, sondern einfach ein Werkzeug, und dass wir als Nutzer von Algorithmen Freiheitsgrade haben, ob und wie wir sie nutzen.
Es ist auch ein guter Zeitpunkt, um über die Tatsache nachzudenken, dass wir Menschen eine lange Geschichte der Veränderung unserer Umwelt haben – dies ist ja eine wesentliche Aufgabe der Politik. Und in der Tat gibt es viele Beispiele dafür, wie Vorurteile bekämpft wurden – manche mit mehr, manche mit weniger Erfolg. Die Diskriminierung von Musikerinnen ist so gut wie verschwunden, seit die Orchester damit begonnen haben, die Identität und damit das Geschlecht der Bewerber beim Vorsingen hinter einem Vorhang zu verbergen. Quoten sind häufig anzutreffen (z. B. bei der Zulassung zu Universitäten und bei der Besetzung von Stellen, die von Einstiegspraktika bis hin zu Vorstandsämtern reichen), obwohl sowohl ihre Wirksamkeit als auch ihre Angemessenheit weiterhin umstritten sind.
Um auf die Diskussion über die allgemeine Gestaltung eines Entscheidungsalgorithmus zurückzukommen: Es gibt durchaus Möglichkeiten, den Einsatz von Algorithmen auf eine untergeordnete Rolle zu beschränken – so könnten Algorithmen beispielsweise dazu verwendet werden, Bewerber innerhalb bestimmter Quoten auszuwählen (im Gegensatz zur Abschaffung von Quoten, indem Algorithmen die Auswahl vollständig übernehmen), oder es könnten mehrere konkurrierende Algorithmen verwendet werden (mit jeweils eigenen Zulassungskontingenten), insbesondere dann, wenn alles andere als klar ist, was überhaupt ein gutes oder schlechtes Ergebnis darstellt. (In Deutschland zum Beispiel werden bei der Zulassung zum Medizinstudium die Studienplätze nach mindestens drei Algorithmen vergeben – ein Algorithmus richtet sich ausschließlich nach den akademischen Leistungen, ein anderer berücksichtigt auch, wie viele Jahre ein Bewerber auf einen Studienplatz gewartet hat, und ein dritter ist eine qualitative Bewertung durch ein Interview – konkurrierende Ansätze, die die Eignung für den medizinischen Beruf anhand der akademischen Leistungen, der Beharrlichkeit und einer eher qualitativen Sichtweise darauf, wer ein guter Arzt sein könnte, bewerten). Eine weitere gängige Methode ist ein Berufungsverfahren, das es ermöglicht, Algorithmen zu überstimmen.
Wenn Sie wissen, unter welchen Umständen der Algorithmus voreingenommen ist, können Sie auch bestimmte Fälle von einer algorithmischen Bewertung ausschließen – vielleicht vergleichbar mit der Art und Weise, wie bei akademischen Tests wie dem TOEFL Anpassungen für behinderte Studierende vorgenommen werden (wenn Sie z. B. eine Sprachstörung haben, kann der Sprechteil des Tests ausgelassen werden, um zu verhindern, dass der Bewertungsalgorithmus bei der Beurteilung Ihrer Englischkenntnisse voreingenommen ist).
All diese Ansätze können dazu beitragen, Verzerrungen in einem Algorithmus zu beseitigen, ohne den Algorithmus selbst zu verändern, und sind daher eine Überlegung wert, wenn ein Algorithmus eine tiefere Verzerrung in der Gesellschaft oder in den Daten widerspiegelt, die nicht einfach aus dem Algorithmus entfernt werden kann.
Besteht jedoch auch eine Möglichkeit, den Algorithmus selbst zu korrigieren? Schließlich kann dies Vorteile haben, weil ein „fester“ Algorithmus Entscheidungen automatisieren und damit dramatisch beschleunigen kann. Und was die Umsetzung von Veränderungen angeht, so ist es viel einfacher, den Computercode in einer zentralen Entscheidungsmaschine zu ändern, als vielleicht Tausende von Mitarbeitern an der Front zu schulen, um eine schädliche Voreingenommenheit durch einen manuellen Prozesszu korrigieren.
Es gibt einen Präzedenzfall, der auf halbem Weg zur Änderung des Algorithmus selbst liegt, nämlich die Änderung von den in den Algorithmus einfließenden Daten, z. B. fehlerhafte Daten im Kreditbüro. Nun möchten wir aber noch weiter gehen und den Algorithmus selbst manuell verändern (so etwas wie eine Gehirnoperation an einer statistischen Formel).
Das ist in der Tat machbar. In einem ersten Schritt können wir die Quelle der Diskriminierung (z. B. die Rasse) als explizite Variable in den Algorithmus einbeziehen – quasi den Elefanten im Raum bei den Stosszähnen packen, um ihn für alle sichtbar zu machen. In einem zweiten Schritt müssen wir den Elefanten sanft zur Tür hinaus führen – was wir erreichen können, indem wir den Algorithmus so verdrahten, dass er jeden einzelnen Bewerber gleich behandelt. Wenn wir zum Beispiel eine Rassenvariable eingeführt haben, können wir den Algorithmus so programmieren, dass er davon ausgeht, dass jeder Bewerber ein Marsmensch ist, unabhängig davon, ob die Person ein Marsmensch, ein Zeta-Reticulaner oder ein Klingone ist.
Eine solche Technik ist in vielen Disziplinen kaum bekannt, weder in der Praxis noch in der Theorie, und natürlich scheint die willkürliche Änderung eines Algorithmus einen groben Verstoß gegen die statistische Orthodoxie darzustellen. Statistiker könnten schnell darauf hinweisen, dass dies eine schreckliche Sache wäre – wir führen bewusst einen Datenfehler ein, und angesichts der Korrelation unserer Rassenvariable mit anderen im Algorithmus verwendeten Attributen könnte alles Mögliche schief gehen.
Andererseits sind Diskriminierung und gesellschaftliche Voreingenommenheit auch schrecklich, und manchmal ist ein Übel (wie der Stich der Spritze, mit der ein lebensrettender Impfstoff verabreicht wird) wirklich viel kleiner als ein anderes Übel (wie Diphtherie oder Keuchhusten). Und was noch wichtiger ist: Natürlich kann ein Datenwissenschaftler Analysen durchführen, um zu verstehen, was die vorgeschlagene Änderung bewirken wird, und so bestätigen, dass der angepasste Algorithmus immer noch vernünftige Ergebnisse liefert. Bei einer Kreditbewertung kann man beispielsweise die Genehmigungsquote und die Kreditverluste, die mit der ursprünglichen (verzerrten) Scorecard geschätzt wurden, mit den Ergebnissen der angepassten Scorecard vergleichen. Es ist möglich (ja sogar wahrscheinlich), dass die erwarteten Verlustraten steigen – dies kann jedoch durch eine Anpassung der risikobasierten Preisgestaltung (d. h. eine Erhöhung der erhobenen Zinssätze) oder durch eine geringfügige Senkung des maximalen Risikoniveaus, für das Kredite genehmigt werden, ausgeglichen werden. Mit anderen Worten: Ein „unvoreingenommener“ Bankkredit könnte etwas teurer sein, ähnlich wie fair gehandelter Kaffee einen höheren Preis hat – aber beide Produkte können rentabel und sicher sein.1
Es können auch zusätzliche Analysen durchgeführt werden, um die Eigenschaften der zur Korrektur der externen Verzerrung verwendeten Variable besser zu verstehen. So kann beispielsweise eine Korrelationsanalyse aufzeigen, welche anderen Faktoren (z. B. Einkommen oder Bildung) mit der Anpassungsvariable (z. B. Rasse) in Zusammenhang stehen. Insbesondere durch die Unterdrückung aller korrelierten Variablen (ähnlich wie bei der Verwendung von Hauptkomponenten zur Reduzierung redundanter Variablen im Datensatz) kann der Datenwissenschaftler die „Verzerrungs“-Variable zwingen, auch die indirekten Effekte (wie Einkommens- und Bildungseffekte) zu erfassen. Wenn wir nun den Algorithmus bitten, so zu tun, als seien alle Zeta-Reticulaner Marsmenschen, wird der Algorithmus „annehmen“, dass auch Einkommen und Bildung marsähnlich sind.
Tatsächlich stellen Wirtschaftswissenschaftler immer wieder erstaunlich primitive Gleichungen auf, um die Welt zu „erklären“ und dann alternative Szenarien zu bewerten (z. B. eine neue Steuer oder ein neues staatliches Ausgabenprogramm). Ja, wenn eine Kreditwürdigkeitsprüfung „annimmt“, dass ein Zeta-Reticulaner ein Marsmensch ist, führt uns das in eine hypothetische Welt – aber sobald dieser Taschenspielertrick das Schicksal unserer Kreditantragsteller sanft verändert hat, ist es auch sehr gut möglich, dass die Realität unserem Anstoß bereitwillig folgt.
Wie veränderte Vorhersagen ihre eigene Realität schaffen können, zeigt das berühmte Experiment, das die Lehrerin Jane Elliott mit ihren Drittklässlern in Iowa durchführte.2 Am Tag nach der Ermordung von Martin Luther King Jr. führte sie in der Klasse ein willkürliches Vorurteil ein: Kinder mit braunen Augen, so erklärte sie, hätten mehr Melanin im Körper, was ihnen nicht nur braune Augen verleihe, sondern sie auch „sauberer und intelligenter“ mache. Die Ergebnisse waren haarsträubend – nicht nur, dass braunäugige Kinder blauäugige Kinder verspotteten und durch ihre Kommentare zeigten, dass sie blauäugige Kinder tatsächlich für minderwertig hielten, sondern sie legten auch mehr Selbstvertrauen an den Tag (was weitreichende Vorteile für die psychische Gesundheit und die Leistungsfähigkeit haben kann) und schnitten bei Mathetests tatsächlich besser ab, während blauäugige Kinder – selbst ehemalige Stars der Klasse – plötzlich Schwierigkeiten bei Tests hatten. Und als die Lehrerin den Kindern eine Woche später erklärte, dass sie sich geirrt hatte und braunäugige Kinder tatsächlich minderwertiger und weniger intelligent waren als helläugige Kinder, kehrte sich das Verhalten um. Andere psychologische Experimente haben diesen Punkt bestätigt: In erstaunlich hohem Maße sind wir die, für die wir uns halten, und daher können Vorurteile, die andere uns gegenüber haben, unser Verhalten subtil und unbewusst so gestalten, dass es diesen Vorurteilen entspricht.3 Dies bedeutet, dass ein Algorithmus, der einen Bewerber als „würdig“ einstuft, einen realen Einfluss darauf haben kann, wie sich diese Person verhält (und wie andere diese Person behandeln), so dass der optimierte Algorithmus tatsächlich eine neue, bessere Realität schaffen könnte.
Es ist auch erwähnenswert, dass das Ausmaß, in dem die Beteiligten offen für die „Anpassung“ von Algorithmen sind, eine Frage der Positionierung sein kann. Wird ein Algorithmus verwendet, um die Wahrscheinlichkeit eines bestimmten Ergebnisses zu schätzen (z. B. den Abschluss eines Hochschulstudiums oder die Begehung einer anderen Straftat), so ist er so positioniert, dass er eine „Realität“ wiedergibt, und daher kann eine Änderung dieser Schätzung als offensichtlich falsch empfunden werden. Mathematisch gesehen werden diese Wahrscheinlichkeiten jedoch häufig durch Einsetzen eines so genannten Scores in eine Formel berechnet (z. B. schätzt die logistische Regression einen „Logit-Score“ s als lineare Kombination von Vorhersagemerkmalen; die geschätzte Wahrscheinlichkeit ergibt sich aus s als 1/(1 + exp(−s))). Scores werden im modernen Leben ständig verwendet (z. B. haben wir Kredit-Scores, Ride-Hailing-Apps berechnen Scores sowohl für Fahrer als auch für Mitfahrer, es gibt Punkte in Online-Spielen, und manchmal erklären wir unseren Freunden sogar scherzhaft, dass sie mit einer (Fehl-)Tat gerade einige Bonus- oder Strafpunkte verdient haben), und jemandem einen „Bonuspunkt“ zu geben (z. B., um eine gesellschaftliche Voreingenommenheit zu überwinden oder andere politische Ziele zu erreichen), fühlt sich nicht so falsch an – auch wenn es am Ende genau die gleichen Auswirkungen auf die algorithmische Vorhersage hat (und die genaue Bonuspunktzahl, die vergeben werden soll, kann mit dem besprochenen Ansatz berechnet werden – wenn wir eine 0/1-Dummy-Variable einführen, um Marsmenschen zu markieren, würde der Koeffizient dieser Variable die erforderliche Punkteanpassung angeben, um Marsmenschen mit Zeta Reticulans gleichzustellen).
Es gibt keine feste Regel, ob die Manipulation von Algorithmen in einer bestimmten Situation in Betracht gezogen werden kann und sollte, und ich habe stichhaltige Argumente für beide Seiten angeführt, so wie auch andere Methoden zur Überwindung gesellschaftlicher Vorurteile (z. B. Quoten) umstritten sind. Ich bin jedoch der Meinung, dass Nutzer, die mit schwierigen Abwägungen konfrontiert sind, sich dieser Option zumindest bewusst sein sollten und zuweilen zu dem Schluss kommen, dass dies zumindest ein Experiment rechtfertigen könnte, um die Folgen im realen Leben zu testen.
Zusammenfassung
Durch die Anpassung der Entscheidungsarchitektur können die Flügel der voreingenommenen Algorithmen beschnitten und ihre Auswirkung auf die Entscheidungsfindung eingeschränkt werden, z. B. durch Überlagerung von Quoten oder andere Eingriffe, die darauf abzielen, Voreingenommenheit zu verringern oder zu beseitigen.
Auch wenn es statistisch gesehen angreifbar ist, gibt es auch stichhaltige Argumente für die Anpassung eines Algorithmus an sich, z. B. die einfache Umsetzung in großen dezentralen Organisationen und die psychologische Wirkung auf den Einzelnen, wenn ein Algorithmus ihn für „würdig“ erklärt.
Eine praktikable Technik zur Beseitigung starker Verzerrungen in den Daten (z. B. weil sie gesellschaftliche Verzerrungen widerspiegeln) besteht darin, die Verzerrung im Algorithmus explizit zu machen, indem Indikatoren für die Quelle der Verzerrung (z. B. die Rasse eines Bewerbers) als erklärende Variablen eingeführt werden, diese Variablen dann aber für alle Fälle auf denselben Wert gesetzt werden.
Simulationen können Aufschluss über die notwendige Anpassung von weiteren Entscheidungsregeln geben, die auf dem Algorithmus aufbauen, wie z. B. eine Erhöhung der Kreditpreise zur Deckung zusätzlicher Kreditverluste.
Und die Zustimmung der verschiedenen Interessengruppen ist leichter zu erlangen, wenn die Anpassung auf eine Art und Weise erfolgt, die sich natürlich anfühlt, anstatt starke Einwände hervorzurufen (z. B. durch die Anpassung einer abstrakten Punktzahl anstatt der Wahrscheinlichkeit für ein real Ergebnis).