In den ersten beiden Teilen dieses Buches haben Sie gelernt, dass die Mechanik von Algorithmen sie vielen potenziellen Quellen von Voreingenommenheit aussetzt, dass Voreingenommenheit real und manchmal äußerst schädlich ist und dass algorithmische Voreingenommenheit sehr oft ihren Ursprung in Voreingenommenheit in der realen Welt hat.
In diesem Teil des Buches wird erörtert, wie Nutzern von Algorithmen (z. B. Führungskräfte aus der Wirtschaft und Regierungsbeamte) sowie andere Personen, die Entscheidungen über die Verwendung von Algorithmen treffen müssen (z. B. Compliance-Beauftragte und Aufsichtsbehörden), algorithmische Verzerrungen erkennen, behandeln und verhindern können. Wie Sie sehen werden, ergänzen die Werkzeuge und Techniken, die Geschäftsanwendern zur Verfügung stehen, häufig die Beiträge von Datenwissenschaftlern zur Bekämpfung algorithmischer Verzerrungen, die im Mittelpunkt des vierten und letzten Teils des Buches stehen werden.
Wie bereits erwähnt, verwende ich den Begriff „Nutzer“ in einem sehr weiten Sinne, der sowohl Einzelpersonen und Institutionen umfasst, die Algorithmen einsetzen, um bestimmte Entscheidungen zu treffen, als auch die Personen, die den Ergebnissen von Algorithmen ausgesetzt sind, z. B. eine Person oder ein Unternehmen, das eine Genehmigung beantragt.
- 1.
Algorithmische Verzerrungen können nur entstehen, wenn es einen Algorithmus gibt. So wie eine wirksame Strategie, um nicht ausgeraubt zu werden, darin besteht, nachts nicht in eine dunkle Gasse in einer zwielichtigen Gegend zu gehen, sollten wir manchmal einfach keinen Algorithmus verwenden. Damit eröffnet sich ein viel größerer Lösungsraum für den Umgang mit algorithmischer Voreingenommenheit.
- 2.
Wenn wir uns jedoch gegen einen Algorithmus entscheiden, weil er voreingenommen ist, müssen wir immer noch eine Entscheidung treffen. Dabei müssen wir aufpassen, dass wir nicht vom Regen in die Traufe kommen: Unsere alternativen Ansätze zur Entscheidungsfindung könnten viel schlechter sein! Daher müssen wir algorithmische Verzerrungen im Vergleich zu anderen Optionen relativ betrachten – schließlich könnte ein leicht verzerrter Algorithmus immer noch das kleinste aller Übel sein.
Definition des Entscheidungsproblems
Grundsätzlich werden Algorithmen als Mittel zur differenzierten Behandlung verschiedener Menschen eingesetzt. Die grundlegendste Alternative zum Einsatz eines Algorithmus besteht darin, entweder alle Menschen gleich zu behandeln (z. B. könnten Sie versuchen, für jeden Besucher Ihrer Website vorherzusagen, welche Buchempfehlung am nützlichsten wäre, oder Sie könnten sich das Leben leichter machen und einfach jedem Besucher Ihrer Website dieses Buch hier empfehlen) oder eine Münze zu werfen (z. B. durch Auslosung zu entscheiden, welcher Bewerber eingestellt werden soll). Dies ist nicht die Norm, aber es ist auch nicht so weit hergeholt, wie es klingt, wenn der Algorithmus stark verzerrt ist: Ich hatte mehrere Klienten mit einem Kreditratingsystem, das schlechter abschnitt als eine Zufallszahl – in allen vier Fällen wurden die Algorithmen überrumpelt, weil die zu ihrer Entwicklung verwendeten Daten oder die in die Algorithmen eingespeisten Daten stark verzerrt waren. Auch der Zoll an mexikanischen Flughäfen untersuchte früher Reisende nach dem Zufallsprinzip, bevor er im Jahr 2007 Röntgengeräte für das Gepäck installierte, um fundiertere Entscheidungen treffen zu können.
Die menschliche Beurteilung ist der Vorläufer der Algorithmen. Wie bereits erörtert, leidet das menschliche Urteilsvermögen unter zusätzlichen Verzerrungen und ist daher oft schlechter (d. h. voreingenommener) als Algorithmen. Andererseits ist der Mensch in der Lage, neue Situationen logisch zu bewerten. Wenn zum Beispiel der erste Besucher vom Mars am mexikanischen Zoll ankommt, wird kein Algorithmus entscheiden können, ob für seine fliegende Untertasse Zollgebühren anfallen, aber ein Mensch kann glaubhaft argumentieren, dass es sich um ein elektrisches Gerät für den persönlichen Gebrauch handelt, das von der Einfuhrsteuer befreit ist. Es ist auch ein interessantes psychologisches Phänomen, dass die Menschen oft eher bereit sind, eine menschliche Entscheidung zu akzeptieren als eine maschinelle. Dieser Gedanke wurde sogar in die Europäische Datenschutzgrundverordnung (DSGVO) aufgenommen, die „ausschließlich“ automatisierte Entscheidungen verbietet, die eine „erhebliche“ oder „rechtliche“ Auswirkung auf eine Person haben, es sei denn, sie sind ausdrücklich durch eine Einwilligung, einen Vertrag oder das Recht eines Mitgliedstaats zugelassen. Beachten Sie, dass die Regeln ausdrücklich nicht sagen, „es sei denn, es gibt zahlreiche Beweise dafür, dass der menschliche Einfluss auf die Entscheidung zu einer wesentlichen schädlichen Verzerrung führen würde“. Offensichtlich können sogar europäische Gesetzgeber übermäßiges Vertrauen in die menschliche Entscheidungsfindung haben!
Einfache Kriterien könnten als eine sehr vereinfachte Version eines Algorithmus betrachtet werden; sie sind jedoch äußerst transparent, so dass jegliche Voreingenommenheit, die sie mit sich bringen, deutlich wird und daher offen diskutiert werden kann. Steuerbehörden, die nur einen kleinen Teil der Steueranmeldungen manuell überprüfen, haben beispielsweise die Praxis, 100 % der Erstanmeldungen von neuen Unternehmen manuell zu überprüfen und zu validieren. Dies stellt zwar eine Voreingenommenheit gegenüber neu gegründeten Unternehmen dar, aber es ist eine vernünftige (und empirisch bestätigte) Annahme, dass Erstanmelder besonders fehleranfällig sind und daher eine solche differenzierte Behandlung gerechtfertigt ist.
Vermeiden Sie Algorithmen bei Entscheidungen, bei denen ihr Nutzen ihre Nachteile nicht rechtfertigt. Dies kann der Fall sein, weil ein Algorithmus entweder Nachteile mit sich bringt, die durch einen anderen Ansatz vermieden werden können, oder weil die Nachteile des Algorithmus auf einer emotionalen Ebene mehr schmerzen als die Einschränkungen, die der alternative Entscheidungsprozess möglicherweise hat.
Beschränken Sie der Algorithmen auf eine Teilmenge „sicherer“ Fälle, bei denen entweder das Risiko oder die Auswirkungen einer algorithmischen Verzerrung geringer sind als bei anderen Fällen.
Verbinden Sie eine algorithmische Vorauswahl mit einer menschlichen Validierung. Dieser Ansatz eignet sich für asymmetrische Entscheidungsprobleme, bei denen ein Ergebnis (z. B. die Verurteilung eines Verbrechens) als schwerwiegend angesehen wird, während die alternative Behandlung (z. B. die Freilassung einer mutmaßlich unschuldigen Person aus dem Gefängnis) als weniger schwerwiegend angesehen wird; Algorithmen sind hier möglicherweise nur in der Lage, die gutartige Behandlung auszuwählen, werden aber immer vor der Auswahl der schwerwiegenden Behandlung durch den Menschen validiert.
Wie man den Nutzen von Algorithmen bewertet
Um zu beurteilen, ob ein voreingenommener Algorithmus schlechter oder besser abschneidet als alternative Entscheidungsansätze, ist die zentrale Frage, welcher Ansatz genauer ist. Ein einfaches Maß für die Genauigkeit ist die Fehlerquote.
Fehlerquoten für binäre Entscheidungen (z. B. die Vorhersage, ob ein Kredit ausfällt oder ob ein Häftling nach seiner Entlassung aus dem Gefängnis eine weitere Straftat begeht) können mit historischen Daten gemessen werden. Ich kann zum Beispiel Daten über alle Kreditkartenanträge sammeln, die eine Bank vor 12 Monaten bewertet hat, und dann für jeden Kunden nachverfolgen, ob er seither mit einer Bankschuld in Verzug geraten ist. Wenn ich entweder Daten über tatsächliche Entscheidungen sammle, die von alternativen Ansätzen getroffen wurden (z. B. gab das Wall Street Journal eine Zeit lang Affen Dartpfeile, um alternative Aktienauswahlen zu treffen, mit denen professionelle Vermögensverwalter verglichen werden konnten – Sie können raten, wer gewonnen hat!) oder simuliere, wie alternative Ansätze in historischen Fällen entschieden hätten, kann ich die Leistung vergleichen.
Die Trefferquote kombiniert zwei Arten von Fehlerquoten: Die Ablehnung eines Kunden, der später in Verzug geriet, oder die Bewilligung eines Kunden, der den Kredit später zurückzahlte, werden als richtige Entscheidungen bezeichnet, während die Bewilligung eines Kunden, der später in Verzug geriet, oder die Ablehnung eines Kunden, der später nachweislich seine Schulden zufriedenstellend bediente, als falsche Entscheidungen (so genannte falsch positive oder falsch negative) bezeichnet werden.1 Diese Kennzahl weist jedoch zwei Einschränkungen auf: Sie zählt beide Arten von Fehlentscheidungen gleichermaßen (während die eine Art von Fehlern wirtschaftlich gesehen sehr viel kostspieliger sein kann als die andere – der Verlust durch einen einzigen ausgefallenen Kredit ist in der Regel um ein Vielfaches höher als der entgangene Gewinn durch die Ablehnung eines guten Kredits), und wenn der Algorithmus eine Ergebniswahrscheinlichkeit ermittelt, hängt die Trefferquote auch davon ab, ob eine vorsichtige Grenze gezogen wurde oder nicht (z. B. bis zu welcher Ausfallwahrscheinlichkeit genehmigen Sie einen Kredit? 1 %? 5 %? 10 %? 20 %?).
Für Situationen, in denen Algorithmen die Wahrscheinlichkeit eines Ergebnisses schätzen, haben Statistiker viel bessere Messgrößen entwickelt, um zu messen, wie gut ein Algorithmus die Ergebnisse einordnet. In einem Bericht der Bank für Internationalen Zahlungsausgleich2 (die weltweit Standards für Banken entwickelt) wird insbesondere der Gini-Koeffizient empfohlen. Der Gini-Koeffizient ist zwar nicht in einer Flasche – er ist nach dem italienischen Statistiker Corrado Gini benannt –, aber wie der Alkoholgehalt ist er eine Zahl zwischen 0 und 100 Prozent.3 0 bedeutet, dass ein Ergebnis völlig zufällig ist (oder für alle gleich) und daher so nutzlos wie Wodka ohne Alkohol, während 100 bedeutet, dass das Ergebnis perfekt vorausschauend ist. (Eine Kristallkugel kann vielleicht 100 erreichen, aber jeder Algorithmus, der Phänomene der realen Welt mit einem gewissen Grad an Unsicherheit vorhersagt, hat Werte unter 100. Für ein schwieriges Entscheidungsproblem wie die Einschätzung der Ausfallwahrscheinlichkeit von Kleinunternehmen findet man beispielsweise Gini-Koeffizienten im Bereich von 35–70). Eine sehr ähnliche Metrik, die ebenfalls sehr beliebt ist (möglicherweise, weil sie wie eine Wodka-Marke klingt), ist die K-S-Statistik (Kolmogorov-Smirnov).
Der beste Ansatz besteht jedoch darin, das tatsächliche wirtschaftliche Ergebnis (d. h. Gewinn oder Verlust) der Anwendung verschiedener Algorithmen oder Entscheidungsansätze zu simulieren. Nehmen Sie eine Bank: Sie könnten feststellen, dass ein Algorithmus mit einem sehr hohen Gini-Koeffizienten (d. h. mit einer hervorragenden Vorhersagekraft) im Allgemeinen sehr gut ist, sich aber bei der Bewertung sehr großer Kredite besonders schwer tut (möglicherweise aufgrund einer „big is beautiful“-Voreingenommenheit). Der Verlust, der durch die Bewilligung einiger sehr großer schlechter Kredite entsteht, könnte alle Einsparungen, die der Algorithmus bei kleineren Krediten erzielt, zunichte machen. Um die wirtschaftlichen Auswirkungen eines Algorithmus abzuschätzen, müssen Sie eine historische Stichprobe von Kreditanträgen und einige Geschäftsparameter (z. B. Zinsmargen und Verzugszinsen) ermitteln und einige Zahlen berechnen, aber das Ergebnis einer solchen Simulation – selbst wenn sie nur grob und näherungsweise durchgeführt wird – kann augenöffnend sein!
Algorithmen benötigen viele homogene Daten – einige Hundert strukturell vergleichbare Fälle sind das absolute Minimum, und einige fortgeschrittene maschinelle Lernverfahren benötigen Hunderttausende von Fällen, um ihre theoretische Leistungsfähigkeit auch zu entfalten. Ist die verfügbare Datenmenge gering oder sind die Fälle nicht sehr homogen, haben Algorithmen aufgrund von Overfitting Probleme – bis dahin, dass sie bei sehr kleinen Stichproben oder sehr heterogenen Daten schlechter abschneiden als das menschliche Urteilsvermögen (das logische Schlussfolgerungen ziehen kann).
Wenn menschliche Entscheidungsträger Zugang zu Informationen haben, die nicht elektronisch verfügbar sind (z. B. die Körpersprache einer anderen Person und andere qualitative Faktoren), können sie Algorithmen aufgrund dieses Informationsvorteils übertreffen. Dies ist insbesondere dann der Fall, wenn der Ansatz zur Ausübung eines solchen Urteils ausdrücklich so konzipiert wurde, dass menschliche Voreingenommenheit ausgeschlossen ist, oder wenn der Entscheidungsträger über reichlich Erfahrung verfügt, da er Hunderte ähnlicher Entscheidungen mit mehr oder weniger sofortigem Feedback getroffen hat.
Zusammenfassung
Wenn ein unvoreingenommener Algorithmus unerreichbar erscheint, sollte der Architekt des Entscheidungsprozesses prüfen, ob ein solcher Algorithmus durch einen nicht-algorithmischen Entscheidungsansatz ersetzt oder mit diesem kombiniert werden sollte.
Zu den Alternativen für eine Entscheidungsregel gehören die Gleichbehandlung aller Fälle, eine Auswahl nach dem Zufallsprinzip, das menschliche Urteilsvermögen und die Verwendung äußerst einfacher (und daher transparenter) Kriterien.
Alternative Entscheidungsfindungsansätze – insbesondere die menschliche Beurteilung – sind oft noch schlechter (d. h. voreingenommener) als ein Algorithmus. Die Entscheidung zwischen alternativen Ansätzen sollte daher immer auf der relativen Leistung beruhen.
Das Gini-Maß ist eine hervorragende Kennzahl, mit der die Qualität von Entscheidungen bei alternativen Ansätzen für binäre Entscheidungen verglichen werden kann. Eine wirtschaftliche Analyse der Kosten für falsch-positive und falsch-negative Entscheidungen ist eine noch aussagekräftigere Analyse für den Vergleich von Fehlern bei verschiedenen Entscheidungsansätzen.
Empirisch gesehen schneiden Algorithmen am besten ab, wenn viele (d. h. Tausende) homogene Fälle vorliegen. Sind die Daten jedoch selten (d. h. nicht einmal 100–200 historische Fälle) oder kann ein menschlicher Entscheidungsträger zusätzliche Informationen (in der Regel qualitativer Art) berücksichtigen, können Algorithmen schlechter abschneiden (d. h. unter mehr Verzerrungen leiden) als Menschen.