T. BärAlgorithmic Bias: Verzerrungen durch Algorithmen verstehen und verhindernhttps://doi.org/10.1007/978-3-662-66315-8_3

3. Wie Algorithmen Vorurteile bekämpfen

Tobias Bär¹

(1)

Taipei, Taiwan

Im vorangegangenen Kapitel haben Sie einen Crashkurs in Psychologie absolviert, um zu verstehen, warum Menschen bei ihren Entscheidungen manchmal voreingenommen sind und was einige der häufigsten Arten der kognitiven Vorurteilsprozesse sind. In diesem Kapitel, das sich in erster Linie an Leser richtet, die selbst keine Erfahrung mit der Entwicklung von Algorithmen haben, werde ich erklären, wie ein Algorithmus funktioniert. Genauer gesagt werde ich zeigen, wie ein guter Algorithmus funktioniert und wie er dadurch menschliche Voreingenommenheit abmildern kann. In späteren Kapiteln können Sie dann leichter verstehen, wie Algorithmen in die Irre führen können (d. h. Voreingenommenheit zeigen) – und welche verschiedenen Möglichkeiten es gibt, dieses Problem anzugehen.

Ein einfaches Beispiel für einen Algorithmus

In der Einleitung habe ich erwähnt, dass Algorithmen statistische Formeln sind, die darauf abzielen, unverzerrte Schätzungen zu machen. Wie genau schaffen sie das?

Einer der einfachsten statistischen Algorithmen ist die lineare Regression. Sie schätzt eine Zahl – zum Beispiel die Anzahl der Haare auf dem Kopf einer Person – mit einer Gleichung, die wie folgt aussieht:

$y=c+{\beta}_1\times {x}_1+{\beta}_2\times {x}_2+{\beta}_3\times {x}_3$

Die abhängige Variable (d. h. die Zahl, die Sie schätzen wollen, hier die Anzahl der Haare auf dem Kopf einer Person) wird oft mit y bezeichnet. Sie wird als lineare Kombination unabhängiger Variablen (auch Prädiktoren genannt) geschätzt. Hier hat der Datenwissenschaftler drei Prädiktoren ausgewählt: x₁, x₂ und x₃. x₁ könnte die Fläche der Kopfhaut der Person sein (größere Köpfe haben mehr Haare), x₂ könnte das Alter der Person sein (wenn Menschen älter werden, verlieren sie möglicherweise einige Haare), und x₃ könnte das Geschlecht sein (Männer scheinen häufiger kahl zu sein als Frauen).

Wie funktioniert diese Gleichung? Nehmen wir an, Sie haben heute Morgen einen Quadratzentimeter auf dem Kopf Ihrer Mutter markiert und 281 Haare gezählt. Sie können also damit beginnen, die Fläche der Kopfhaut (bezeichnet als x₁ und gemessen in Quadratzentimetern) mit 281 zu multiplizieren. Statistiker nennen 281 einen Koeffizienten und notieren ihn als β₁. Der tiefgestellte Wert 1 bedeutet einfach, dass β₁ zu x₁ gehört.

Ausgehend von der Anzahl der Haare, die Sie heute Morgen in Ihrem Bett gefunden haben, glauben Sie vielleicht auch, dass die Menschen jedes Jahr im Durchschnitt 1000 Haare verlieren. Sie setzen also -1000 in β₂ ein.

Schließlich schätzen Sie, dass Männer im Durchschnitt 50.000 Haare weniger haben als Frauen. Aber hier stoßen Sie auf ein Problem: Das Geschlecht ist ein qualitatives Attribut, aber Ihre Gleichung braucht Zahlen. Wie können Sie das lösen? Die Lösung ist das, was Datenwissenschaftler als Variablentransformation oder Merkmalsgenerierung bezeichnen: Sie erstellen neue numerische Werte, die qualitative Attribute messen (oder andere Dinge – die Umwandlung qualitativer Werte in Zahlen ist nur ein Beispiel für die Merkmalsgenerierung). In unserem Beispiel würden sie x₃ als einen numerischen Wert definieren, der „Männlichkeit“ angibt. Die einfachste Möglichkeit ist eine Dummy-Variable: x₃ kann als binäre Variable definiert werden, die für Männer 1 und ansonsten 0 ist. In diesem Fall könnte β₃ auf -50.000 gesetzt werden.

Ein anderer Datenwissenschaftler könnte jedoch argumentieren, dass eine binäre Definition des Geschlechts veraltet und zu grob ist, und daher vorschlagen, dass „Männlichkeit“ anhand des Testosteronspiegels im Blut gemessen wird. In diesem Fall könnte das Modell vorschlagen, dass pro 1 ng/dL Testosteron die Anzahl der Haare um 70 abnimmt. Dies ist das erste Beispiel dafür, wie die Überzeugungen des Datenwissenschaftlers – hier die Frage, ob das Geschlecht binär ist oder nicht – einen Algorithmus beeinflussen können.

Auf der Grundlage einer sehr begrenzten Datenmenge – einem Quadratzentimeter des Kopfes Ihrer Mutter, den Haaren, die Sie heute Morgen in Ihrem Bett gefunden haben, und einer Schätzung der geschlechtsspezifischen Unterschiede, die Sie so ziemlich aus der Luft gegriffen haben – haben Sie also einen Algorithmus entwickelt:

$\mathrm {Haare}=281\times {x}_1-1000\times {x}_2-70\times {x}_3$

Das Problem mit diesem Algorithmus ist, dass er ziemlich falsch ist. Ihre Mutter könnte eine Ausnahme sein; Ihre Zählung könnte fehlerhaft gewesen sein; und konzeptionell haben Sie die Tatsache ignoriert, dass Männer größere Köpfe haben als Frauen, so dass es etwas gibt, was Statistiker eine Korrelation zwischen x₁ und x₃ nennen (und als Sie den Koeffizienten für x₃ gewählt haben, haben Sie nicht darüber nachgedacht, was x₁ am anderen Ende Ihrer Gleichung bewirkt). Mit dem Wissen aus dem vorangegangenen Kapitel können Sie erkennen, wie Ihre kognitiven Voreingenommenheiten zu diesem Schlamassel beigetragen haben könnten: Sie fielen der Verfügbarkeitsvoreingenommenheit zum Opfer, indem Sie Ihre Datenerhebung auf Ihre unmittelbaren Familienmitglieder stützten, und zeigten eine extreme Verankerung, indem Sie Ihre Nachbarn nicht einmal in Betracht zogen. Und Sie waren übermäßig selbstbewusst, weil Sie glaubten, dass dieser Ansatz überhaupt einen Sinn hat!

Zum Glück für Sie kann die Statistik zur Hilfe kommen: Wenn Sie die Anzahl der Haare sowie x₁ , x₂ und x₃ für eine Stichprobe von Personen messen (Ihr Freund, der Statistiker, schlägt vielleicht mindestens 100–200 Personen vor, obwohl eine Million Personen viel besser wäre), wird die Statistik die Werte Ihrer Koeffizienten so optimieren, dass der Schätzfehler minimiert wird. Das statistische Schätzverfahren „spielt“ mit vier Parametern herum und findet die optimalen Schätzwerte: β₁ , β₁ und β₃ sowie den konstanten Parameter c.

An dieser Stelle eine technische Anmerkung: Die lineare Regression ist statistisch noch so einfach, dass man mit Hilfe der Matrixalgebra die Koeffizienten tatsächlich berechnen kann. Bei komplexeren Algorithmen ist das „Herumspielen“ jedoch tatsächlich die einzige Möglichkeit, eine gute Lösung zu finden. Techniken wie die Maximum-Likelihood-Schätzung finden iterativ optimale Lösungen für die Parameter. Dies ist ein Hinweis darauf, warum die Verbreitung fortgeschrittener statistischer Verfahren so sehr von der immer höheren Geschwindigkeit von Computern abhängt – und warum ein Teil der Fähigkeiten eines Datenwissenschaftlers (oder der Fähigkeiten des von ihm verwendeten Softwaretools) in der Recheneffizienz liegt, z. B. darin, clevere Wege für die Maximum-Likelihood-Schätzung zu kennen, um den Suchprozess zu beschleunigen.

Eines der größten Vorteile von Algorithmen, die von der Statistik entwickelt wurden, ist, dass sie zu uns sprechen – gewissermaßen. Wenn wir die statistischen Ergebnisse überprüfen, können wir nicht nur viel über die Daten und die Phänomene lernen, die wir vorherzusagen versuchen, sondern auch darüber, wie der Algorithmus „denkt“. Ich werde dies in den nächsten Abschnitten kurz erläutern.

Was ein Algorithmus Ihnen sagen kann

Wenn Sie Daten über die Haare von 200 Personen sammeln würden (ich bezweifle, dass mein Verleger die Kosten dafür übernehmen würde, also musste ich mir die folgenden Zahlen komplett ausdenken), könnte Ihre Statistiksoftware die folgende Gleichung erstellen:

$\mathrm {Haare}=75.347+159\times {x}_1-0,3\times {x}_2-23\times {x}_3$

Dies ist ein äußerst interessantes Ergebnis! Es gibt mindestens drei besonders bemerkenswerte Aspekte in dieser Gleichung:

1.
Diese neue Gleichung macht viel weniger Fehler als die ursprüngliche Gleichung (Sie sehen das nicht, aber nehmen Sie mich beim Wort). Das Schätzverfahren garantiert sogar, dass es sich um die beste Schätzung handelt, die man bekommen kann (erinnern Sie sich an das Konzept der BLUE (best linear unbiased estimate) aus Kap. 1?). Wenn Ihr Lebensunterhalt davon abhängt, dass Sie die Anzahl der Haare der Leute kennen (z. B. weil Sie ein verrückter Friseur sind, der nach der Anzahl der geschnittenen Haare abrechnet, aber Ihre Kunden vernünftigerweise einen Kostenvoranschlag verlangen, bevor Sie anfangen), werden Sie viel besser dran sein – sehr wahrscheinlich könnten Sie Ihr Geschäft ohne diese Gleichung gar nicht betreiben. Es gibt jedoch einen Vorbehalt: „Fehler“ ist auf eine bestimmte Art und Weise definiert, nämlich als die quadrierte Differenz zwischen der vom Algorithmus geschätzten Anzahl der Haare und der tatsächlichen Anzahl der Haare jeder Person in der Stichprobe (deshalb bezeichnen Statistiker diese Technik auch als gewöhnliche kleinste Quadrate oder OLS). Das bedeutet, dass Sie einen anderen Satz von Koeffizienten bevorzugen könnten, wenn Sie anders über die Gewichtung von Fehlern denken (da OLS die Fehler quadriert, werden große Fehler stark bestraft, aber kleine Fehler relativ vernachlässigt – Sie könnten damit nicht einverstanden sein).
2.
Sie haben vielleicht bemerkt, dass der konstante Term eine sehr große Zahl enthält, während β₁ viel niedriger ist als in der ursprünglichen Gleichung. Im Wesentlichen orientiert sich der Algorithmus an einem Anker (der ihn auf halbem Weg zum Durchschnitt bringt) und begrenzt die durch einzelne Attribute verursachte Variationsmenge. Dies erinnert an die Stabilitätsverzerrung und an die Diskussion im vorherigen Abschnitt, in dem ich feststellte, dass die Natur gute Gründe hatte, als sie Stabilitätsverzerrungen in unseren Gehirnen fest verdrahtete – ein gewisses Maß an Verankerung verbessert die Schätzungen tatsächlich. Empirisch lässt sich feststellen, dass die Gleichung umso stärker auf den Bevölkerungsdurchschnitt ausgerichtet ist, je schlechter die Prädiktoren oder die Gesamtstruktur des Modells sind (im Extremfall, wenn alle unabhängigen Variablen bedeutungslos sind, wird die Gleichung eine konstante Funktion mit Nullkoeffizienten für alle unabhängigen Variablen sein und somit den Bevölkerungsdurchschnitt für alle schätzen, was unter solchen Umständen keine schlechte Idee ist).
3.
Schließlich könnte Ihnen der Koeffizient von −0,3 für das Alter auffallen (ja, das ist nicht einmal ein halbes Haar!). Wenn eine Statistikerin diese Schätzung genauer untersuchen würde, könnte sie Ihnen sagen, dass dieser Koeffizient „nicht signifikant“ ist (d. h., dass der Koeffizient höchstwahrscheinlich null ist). Ein Nullkoeffizient ist die Art und Weise, wie die Statistik Ihnen mitteilt, dass eine Variable keinen Sinn macht. Wenn man darüber nachdenkt, wird einem klar, warum: In jungen Jahren wachsen einem mehr Haare, nicht weniger; und auch als Erwachsener verliert man nicht nur Haare (die man dann morgens im Bett findet), sondern es wachsen auch neue Haare. Die meisten Menschen haben also erst relativ spät in ihrem Leben einen Netto-Haarausfall. Das lineare Modell geht einfach davon aus, dass man jedes Jahr die gleiche Menge an Haaren verliert – und macht daher nicht wirklich viel Sinn. Und es ist wichtig zu verstehen, dass die geschätzten Koeffizienten aufgrund der geringen Stichprobengröße kaum genau Null sind; die Koeffizienten enthalten in der Regel ein wenig Rauschen. Das Konzept der Signifikanz ist leider etwas kompliziert, aber was ein Statistiker meint, wenn er sagt, dass ein Koeffizient nicht signifikant ist, ist Folgendes: Wenn der Koeffizient in Wirklichkeit Null wäre (d. h. die Variable wäre bedeutungslos), sollten Sie aufgrund des Rauschens in den Daten und des Stichprobenumfangs, den Sie haben, erwarten, dass der berechnete Koeffizient in einem gewissen Bereich um Null herum liegt (in diesem Beispiel vielleicht −0,5 bis +0,5). Da der tatsächlich ermittelte Koeffizient innerhalb dieses Bereichs liegt, sollten Sie davon ausgehen, dass er in Wirklichkeit Null ist und die Variable daher bedeutungslos ist. Ist das sicher? Nein, ist es nicht! Statistiker verfügen jedoch über Instrumente zur Quantifizierung der Wahrscheinlichkeit, dass ihre Aussagen richtig sind – in diesem Zusammenhang nennen wir diese Wahrscheinlichkeit das Konfidenzniveau. Wenn eine Variable mit einem Konfidenzniveau von 99,9 % als nicht signifikant bezeichnet wird, bedeutet dies, dass, wenn der wahre Koeffizient Null ist, die Schätzungen mit einer Wahrscheinlichkeit von 99,9 % innerhalb eines bestimmten Bereichs liegen (der von der Statistiksoftware berechnet wird), und dass der Koeffizient, den Sie für die Variable erhalten haben, tatsächlich innerhalb dieses Bereichs liegt. Sie könnten den Statistiker auch fragen: „Wenn der wahre Koeffizient −1000 wäre, wie hoch ist die Wahrscheinlichkeit, dass ich das Ergebnis erhalte, das wir hier haben?“ Der Statistiker könnte verwirrt dreinschauen, weil dies nicht die übliche Denkweise ist, aber nach einigem Murren könnte er Ihnen sagen, dass es 0,0000417 % ist. Das bedeutet, dass es wirklich unwahrscheinlich ist, dass wir im Durchschnitt 1000 Haare pro Jahr verlieren – aber auf der Grundlage Ihrer Stichprobe von 200 Personen ist es nicht völlig unmöglich.

Der zuletzt genannte Punkt – die Feststellung, dass eine Variable höchstwahrscheinlich bedeutungslos ist – ist eine der wichtigsten Möglichkeiten, wie ein statistischer Algorithmus uns hilft, unsere Entscheidungslogik als falsch zu entlarven. Statistiker sagen oft, dass statistische Tests unsere Hypothese „verwerfen“: Sie zeigen uns, dass unsere Annahme auf der Grundlage der vorliegenden Daten falsch zu sein scheint.

Ich habe viele Jahre als Berater damit verbracht, die Beurteilung von Kredit- und Versicherungsverträgen von Vorurteilen zu befreien. Zu diesem Zweck verbrachte ich viele Stunden mit den zuständigen Sachbearbeitern, um alle Informationen aufzulisten, auf die sie achten; in der Regel kamen wir zu langen Listen mit 200–400 Faktoren. Gemeinsam mit ihnen habe ich dann die 40 bis 70 Faktoren herauskristallisiert, die sie für am wichtigsten hielten. Und dann habe ich diese Faktoren mit Hilfe von solchen statistischen Verfahren validiert – und jedes Mal, in über 100 solcher Studien, stellte sich heraus, dass etwa die Hälfte der priorisierten Faktoren unbedeutend war. Die Sachbearbeiter litten unter einer ganzen Reihe von kognitiven Verzerrungen, die ich im vorigen Kapitel aufgelistet habe. Wenn beispielsweise ein chinesischer Kreditsachbearbeiter einmal einen deutschen Kreditnehmer hatte, der einen spektakulären Konkurs erlitt, könnte der Skurrilitätseffekt diesen Kreditsachbearbeiter dazu veranlassen, alle deutschen Bewerber als äußerst riskant abzulehnen. Als Deutscher kann ich Ihnen versichern, dass dies eine völlig irrige Annahme wäre!

Auf der Grundlage der statistischen Testergebnisse habe ich dann die Bewertungslogik umgestaltet. Während die Risikobewertung normalerweise im Kopf eines Sachbearbeiters stattfindet, habe ich sie durch einen statistischen Algorithmus ersetzt. Als die Banken und Versicherungsgesellschaften, für die ich gearbeitet habe, die neuen Algorithmen testeten, stellten sie fest, dass die Entscheidungen durchweg besser ausfielen, und zwar so, dass die Kredit- und Versicherungsverluste um 30–50 % (manchmal sogar noch mehr) reduziert wurden, während gleichzeitig mehr Anträge genehmigt wurden (und somit ein schnelleres Wachstum des Geschäfts zu verzeichnen war)! Dies ist für die Finanzinstitute natürlich eine Menge Geld wert (und machte meine Beratung zu einer wirklich guten Investition).

Aus diesem Grund kann man mit Fug und Recht behaupten, dass statistische Algorithmen ein wichtiges Instrument zur Bekämpfung von Vorurteilen und anderen kognitiven Verzerrungen sind. Wie Sie in den folgenden Kapiteln sehen werden, bedeutet dies jedoch leider nicht, dass Algorithmen perfekt sind oder nicht selbst Opfer von Verzerrungen werden können.

Zusammenfassung

In diesem Kapitel haben Sie untersucht, was ein Algorithmus ist, und einige wichtige Eigenschaften in Bezug auf Verzerrungen festgestellt:

Im Prinzip zielen statistische Algorithmen darauf ab, unvoreingenommene Schätzungen abzugeben, indem sie alle ihnen zur Verfügung stehenden Datenpunkte objektiv analysieren.
Die Untersuchung von Algorithmen kann wichtige Informationen liefern – wir erfahren nicht nur mehr über die Daten und die Phänomene, die wir vorhersagen wollen, sondern wir können auch verstehen, wie der Algorithmus „denkt“. Das ist wertvoll, weil wir dann fragen können, ob diese Denkweise möglicherweise fehlerhaft ist.
Wenn wir bestimmte Variablen in ein Modell eingeben (als Ausdruck unserer Überzeugungen über die zugrundeliegenden kausalen Beziehungen), können wir mit Hilfe der statistischen Signifikanz prüfen, ob unsere Hypothesen durch die Daten gestützt werden. Ist dies nicht der Fall, besteht die Möglichkeit, dass wir voreingenommen waren und der Algorithmus uns geholfen hat, diese Voreingenommenheit zu erkennen.
Die Erfahrung zeigt, dass statistische Algorithmen oft besser abschneiden als die subjektive menschliche Beurteilung, weil es ihnen gelingt, viele Verzerrungen auszuschalten.
Statistische Algorithmen sind im Bevölkerungsdurchschnitt verankert, und je schlechter die Modellstruktur und die Vorhersagekraft der unabhängigen Variablen sind, desto stärker ist diese Stabilitätsverzerrung (d. h., umso dichter liegen die Schätzungen am Durchschnitt).

Um zu verstehen, wie sich in einen statistischen Algorithmus dennoch Verzerrungen einschleichen können, ist es hilfreich, genauer zu wissen, wie Datenwissenschaftler bei der Entwicklung dieser Algorithmen eigentlich vorgehen. Darauf werden wir als Nächstes eingehen.