T. BärAlgorithmic Bias: Verzerrungen durch Algorithmen verstehen und verhindernhttps://doi.org/10.1007/978-3-662-66315-8_15

15. Wie man algorithmische Verzerrungen erkennt

Tobias Bär¹

(1)

Taipei, Taiwan

Im vorigen Kapitel habe ich darauf hingewiesen, dass die Überwachung eine zentrale Rolle bei der sicheren Benutzung von Algorithmen spielt. Dies ist erstaunlich schwierig. Wie Ron DeLegge II es so schön formulierte: „99 Prozent aller Statistiken erzählen nur 49 Prozent der Geschichte“.¹ Infolgedessen wird viel Unfug gesagt und getan, weil in irgendeinem Bericht bedeutungslose Zahlen auftauchen. Selbst wenn keine bösen Absichten im Spiel sind, kann eine schlecht berechnete oder interpretierte Zahl Sie ernsthaft in die Irre führen. Dieses Kapitel gibt einen umfassenden Überblick darüber, wie man Algorithmen am besten auf Verzerrungen aus der Sicht des Nutzers überwacht.

Ich habe versucht, dieses Kapitel interessant zu gestalten – wir werden unter anderem über Gorillamänner, betrunkene Köche, den Verzehr von Meerschweinchen, Bier und Ghettos für Marsmenschen sprechen – aber es geht immer noch um die Überwachung von Algorithmen. Wenn Sie also glauben, dass Sie in Ihrem Leben niemals einen Algorithmus überwachen werden, können Sie dieses Kapitel getrost überspringen. Andererseits haben Sie keine Ahnung, welche unerwarteten Freuden Sie verpassen werden – vielleicht wollen Sie also trotzdem weiterlesen! Ich denke über die Überwachung eines Algorithmus ähnlich wie über eine medizinische Untersuchung. Ärzte messen regelmäßig Blut- und andere Werte ihrer Patienten, die auf verborgene Gesundheitsprobleme hinweisen können, z. B. den Cholesterinspiegel im Blut oder Flecken auf der Haut, die möglicherweise krebsartig sind. Ärzte führen aber auch individuelle Kontrollen für bekannte Gesundheitsprobleme durch (z. B. um sicherzustellen, dass die Medikamentendosierung eines Epilepsiepatienten weiterhin ausreichend ist) und um neuen Warnsignalen nachzugehen, die bei regelmäßigen Gesundheitskontrollen auftauchen (z. B. eine Biopsie eines verdächtigen Flecks auf der Haut).

Dabei müssen wir uns mit zwei besonderen Herausforderungen auseinandersetzen. Erstens können Algorithmen manchmal die in der realen Welt auftretenden Verzerrungen widerspiegeln, wie in Kap. 6 erläutert. Wir müssen daher einen Weg finden, um Verzerrungen in der realen Welt, die von einem Algorithmus gespiegelt werden, von Verzerrungen zu unterscheiden, die durch einen Algorithmus eingeführt oder verstärkt werden, da die Auswirkungen und Abhilfemaßnahmen sehr unterschiedlich sind.

Zweitens hat die Einführung des maschinellen Lernens die Überwachung erheblich erschwert. Dafür gibt es zwei Gründe: durch maschinelles Lernen entwickelte Modelle sind sehr viel komplexer und weniger transparent als einfachere, traditionelle Algorithmen wie die logistische Regression, und sie können sehr viel schneller aktualisiert werden als von Menschen erstellte Modelle, manchmal sogar jeden Tag (wenn nicht gar kontinuierlich im Falle des maschinellen Lernens in Echtzeit). Dies stellt eine Herausforderung für algorithmische Überwachungsregelungen dar. Und wie nicht untypisch für den technologischen Fortschritt, ist der Stand der Technik bei der Entwicklung von Algorithmen viel schneller und weiter fortgeschritten als der Stand der Technik bei ihrer Überwachung.

In den folgenden Abschnitten werden wir daher zunächst die Grundlagen der Überwachung von Algorithmen erläutern. Dann werden wir kurz erörtern, wie man die Ursache einer vermuteten Verzerrung, die bei unserer Überwachung auftrat, verstehen kann, einschließlich des Vergleichs von algorithmischen Verzerrungen mit realen Verzerrungen. Schließlich werde ich spezifische Überwachungsansätze für „Blackbox“-Maschinenlernmodelle und häufig aktualisierte Algorithmen vorschlagen.

Überwachungsalgorithmen: Die Grundlagen

Der Zweck der Überwachung besteht darin, vor wahrscheinlichen Problemen gewarnt zu werden – ähnlich wie ein plötzlicher Schmerz in der Fußsohle uns vor einer wahrscheinlichen Verletzung warnt, etwa weil wir auf einen scharfen Gegenstand getreten sind. Dies ist eigentlich ein dreistufiger Prozess – zunächst müssen wir festlegen, welche Messgrößen wir verfolgen wollen und (sehr wichtig!) welchen Wertebereich wir für jede Messgröße als „normal“ (im Gegensatz zu „verdächtig“/„besorgniserregend“) betrachten (andernfalls produzieren wir nur bedeutungslose Zahlen); dann müssen wir den Prozess und die Routine für die regelmäßige Berechnung der von uns ausgewählten Messgrößen entwickeln; und schließlich müssen wir jeden Bericht durchgehen, feststellen, welche Messgrößen tatsächlich außerhalb ihres normalen Bereichs liegen, und dann bewerten und entscheiden, was zu tun ist. Viele Modellierungsberichte lassen die Hälfte davon vermissen – sie produzieren seitenweise Zahlen, deren Bedeutung sich den meisten Lesern entzieht, und es gibt keine Folgemaßnahmen; infolgedessen können sich Warnsignale im Verborgenen abspielen.

Bei der Definition einiger aussagekräftiger Metriken ist es hilfreich, zwei Arten von Metriken zu unterscheiden: zukunftsorientierte und rückwärtsgerichtete Metriken. Dieses Problem ergibt sich daraus, dass Algorithmen, die für Entscheidungen verwendet werden, in der Regel vorausschauend sind – sie liefern eine Schätzung für etwas, das wir noch nicht kennen. In vielen Fällen (aber nicht immer) wird sich die Wahrheit erst in der Zukunft herausstellen. Wenn ein Algorithmus beispielsweise einen Kredit mit einer Laufzeit von einem Jahr genehmigt, weiß ich ein Jahr später mit Sicherheit, ob der Kunde den Kredit rechtzeitig zurückgezahlt hat, es sei denn, der Kunde hat sich gegen den Kredit entschieden (z. B. weil mein Algorithmus eine so geringe Rückzahlungswahrscheinlichkeit vorschlug, dass mein risikobasiertes Preismodell einen so hohen Zinssatz berechnete, dass der Kunde meine Filiale sofort fluchend verließ); in diesem Fall werde ich nie wissen, ob der Kunde den Kredit zurückgezahlt hätte – ein Problem, das wir zu gegebener Zeit diskutieren werden.

Vorausschauende Metriken können bereits zu dem Zeitpunkt berechnet werden, zu dem ich den Algorithmus für eine Geschäftsentscheidung verwende. So kann ich z. B. die Bewilligungsquote für alle in diesem Monat beantragten Darlehen berechnen und sie mit meinem Zielbereich vergleichen. Rückwärtsgerichtete Kennzahlen sind der direkteste Indikator für ein Problem, können aber erst mit Verzögerung berechnet werden (wenn die Wahrheit ans Licht gekommen ist – z. B. kann ich in einem Jahr die Ausfallquote aller in diesem Monat vergebenen Kredite berechnen und mit den Prognosen zum Zeitpunkt der Kreditvergabe vergleichen).

Ein großes Problem bei rückwärtsgerichteten Messgrößen ist, dass mein Entscheidungsprozess meine Daten oft verzerrt. In einem Jahr verfüge ich beispielsweise nur über Leistungsdaten zu Krediten, die ich bewilligt habe, nicht aber zu Krediten, die ich abgelehnt habe. In ähnlicher Weise kann ich die Verkaufsleistung der von mir eingestellten Vertriebsmitarbeiter messen, aber keine Daten über die Verkaufsleistung der von mir abgelehnten Bewerber generieren. Um die Leistung eines Algorithmus wirklich zu analysieren und damit eine Voreingenommenheit bei der Ablehnung bestimmter Klassen von Fällen zu erkennen, muss ich nach Wegen suchen, um Daten über solche Fälle zu finden – die so genannte Ablehnungsinferenz. Manchmal können nützliche Daten extern gefunden werden (z. B. kann ich in einigen Fällen von einer Kreditauskunftei Informationen darüber erhalten, ob ein abgelehnter Kunde einen Kredit zurückgezahlt hat, den er bei einer konkurrierenden Bank aufgenommen hat); manchmal muss ich solche Daten selbst generieren, indem ich eine Stichprobe von „abgelehnten“ Anträgen zufällig auswähle und trotzdem einen Kredit gewähre, nur um zu sehen, was passiert. Wir werden das Thema der Generierung unverzerrter Daten demnächst in einem eigenen Kapitel wieder aufgreifen.

Im Folgenden werde ich eine Mischung aus einfachen und fortgeschritteneren Metriken vorstellen. Alle Metriken – vor allem die einfachen – haben ihre Grenzen. Solange Sie jedoch die Analogie zum Arzt im Hinterkopf behalten und sich bewusst sind, dass ein Warnzeichen genau das ist (ein Zeichen dafür, dass etwas nicht in Ordnung sein könnte, aber keine Garantie dafür, dass mit 100-prozentiger Sicherheit ein Problem vorliegt), bin ich der Meinung, dass einfache Metriken trotz ihrer Grenzen einen großen Wert haben.

Meine beiden Lieblingsmetriken für die Zukunft sind die Verteilungsanalyse und die Analyse manueller Korrekturen.

Die Verteilungsanalyse untersucht die Verteilung der algorithmischen Ergebnisse nach bestimmten Fallmerkmalen, von denen man annimmt, dass sie für eine Verzerrung relevant sind. So kann ich beispielsweise Bewerber nach Geschlecht, Alter oder Wohnort segmentieren und die jeweiligen Genehmigungsquoten berechnen. Wenn ich 40 % der Männer bewillige, aber nur 3 % der Frauen, könnte ich eine ernsthafte Verzerrung feststellen. Und ich wiederhole: Es bedeutet lediglich, dass ich möglicherweise eine Voreingenommenheit habe. Es kann auch durchaus akzeptable Gründe dafür geben. Stellen Sie sich zum Beispiel vor, Sie betreiben eine Billigfluggesellschaft, die Flüge nach dem Gewicht der Passagiere abrechnet – nicht unvernünftig, denn schwerere Passagiere verbrauchen mehr Treibstoff, essen möglicherweise mehr, und wenn Sie die Sitze abgeschafft haben und nur ein paar Zentimeter auf schmalen Bänken zuweisen, bekommen schwerere Passagiere auch mehr Platz auf den Bänken. Benachteiligen Sie Männer, wenn Sie im Durchschnitt mehr für Männer als für Frauen verlangen? Nicht, wenn sie im Durchschnitt schwerer sind als Frauen – nur wenn Sie eine Stichprobe von Fahrgästen mit einem Gewicht von beispielsweise genau 165 Pfund betrachten, können Sie feststellen, dass Sie Männern und Frauen auch genau den gleichen Fahrpreis berechnen. Die Verteilungsanalyse ist daher nur ein erster Schritt – ein schneller Test „per Daumenregel“, um zu prüfen, ob eine Verzerrung vorliegen könnte. In einem zweiten Schritt kann und sollte eine sorgfältigere Analyse durchgeführt werden, wenn Sie Grund zu der Annahme haben, dass eine schädliche Verzerrung vorliegen könnte.
Eine Analyse der manuellen Anpassungen ist dann angebracht, wenn mein Entscheidungsprozess ein gewisses Element der manuellen Korrektur beinhaltet, z. B. weil ein Mensch algorithmische Entscheidungen validiert oder weil von einer Entscheidung betroffene Personen Einspruch erheben können. Absolut gesehen ist eine hohe Korrekturrate ein erster Hinweis darauf, dass ein Algorithmus ein Problem haben könnte; eine tiefer gehende Analyse (Analyse der manuellen Anpassungen nach Segmenten oder eine Ursachenanalyse) kann aufzeigen, ob sich die Korrekturen auf eine bestimmte Gruppe von Fällen konzentrieren. Und wenn der Anpassungsprozess den Grund für die Korrekturen auf sinnvolle Weise erfasst, kann ich vielleicht sogar feststellen, welche bestimmte Modelleingabe oder -logik eine Verzerrung verursacht (z. B. wenn ich Lebensläufe automatisch überprüfe, aber Personalanalysten Fälle mit einer grenzwertigen Punktzahl manuell überprüfen, könnten sie feststellen, dass sie hauptsächlich Ablehnungen überstimmen, bei denen der Algorithmus Absolventen einer Nicht-Elite-Uni benachteiligt zu haben scheint – dies deutet darauf hin, dass mein Algorithmus unter einer ungerechtfertigten Bevorzugung von Elite-Unis leiden könnte).

Meine beiden bevorzugten rückwärtsgerichteten (also ex post auf die Vergangenheit gerichteten) Metriken sind die Bewertung von Kalibrierung und Trennschärfe.

Die Kalibrierung ist der ultimative Test dafür, ob ein Algorithmus richtig schätzt, was er schätzen soll. Sie vergleicht die Vorhersagen mit den tatsächlichen Ergebnissen (daher ist sie rückwärtsgerichtet). Erinnern Sie sich daran, dass Algorithmen darauf abzielen, im Durchschnitt richtig zu liegen, insbesondere dann, wenn es sich bei den Ergebnissen um binäre Ereignisse handelt und daher die Wahrscheinlichkeit, dass ein Ereignis eintritt, nicht einmal konzeptionell mit einem Einzelfall validiert werden kann. Für ein binäres Ereignis vergleichen wir also die vom Algorithmus angegebene Durchschnittswahrscheinlichkeit (z. B. für ein Portfolio von 1000 Krediten kann der Algorithmus eine durchschnittliche Ausfallwahrscheinlichkeit von 2,3 % angeben, was 23 Ausfälle bedeuten würde) mit dem tatsächlichen Prozentsatz der Fälle, in denen das fragliche Ereignis eingetreten ist (z. B. habe ich zu meinem Entsetzen 472 ausgefallene Kredite erlitten, was bedeutet, dass etwas ernsthaft schief gelaufen ist). Bei einem kontinuierlichen Ergebnis vergleiche ich auf ähnliche Weise Vorhersagen und Ergebnisse. Wenn mein Algorithmus z. B. für eine berühmte italienische Fußballmannschaft durchschnittlich 107.233 Haare pro Person vorausgesagt hat und eine sorgfältige Zählung durchschnittlich 107.234 Haare ergeben hat, dann kann man sagen, dass mein Algorithmus goldrichtig lag!
Trennschärfe ist etwas ganz anderes als eine Kalibrierung. Erinnern Sie sich daran, dass der Zweck eines Algorithmus darin besteht, eine faire, faktenbasierte Aussage darüber zu machen, wie die Behandlung verschiedener Menschen zu differenzieren ist. Wenn Sie die Haare von Menschen kaufen, um Perücken herzustellen, und Ihr Gewinn davon abhängt, wie viele Haarsträhnen Sie bekommen, dann ist ein Algorithmus, der eine Schätzung von 107.233 Haaren für jede Person angibt, ziemlich nutzlos – Sie müssen wissen, wer wenig und wer viele Haare hat. In Kap. 12 haben Sie eine Metrik zur Messung der Trennschärfe für binärer Ergebnisse kennengelernt: Gini.

Betrachten wir nun etwas ausführlicher, wie jede dieser Analysen durchzuführen ist (hier liegt der Teufel im Detail), bevor wir erörtern, wie wir angemessene „normale“ Bereiche für jede Kennzahl festlegen können – so können wir entscheiden, wann wir eine Ursachenanalyse zur Weiterverfolgung von Anomalien durchführen müssen. Dabei werden wir auch kurz auf einige alternative Metriken eingehen, die bestimmte Einschränkungen der oben erörterten grundlegenden Analysen überwinden.

Wie man eine korrekte Verteilungsanalyse durchführt

Dieser Teil des Buches richtet sich an die Nutzer von Algorithmen, von denen die meisten keine Datenwissenschaftler sind – und vielleicht auch nie die Lust hatten, sich mit einem Statistikbuch zu beschäftigen. Daher werde ich hier nicht tief in die Statistik einsteigen, sondern nur Analysen vorschlagen, die entweder mit einfachen Mitteln wie einem Tabellenkalkulationsprogramm (z. B. MS Excel) durchgeführt werden können oder die ein Nutzer von einem Datenwissenschaftler erstellen lassen könnte.

Außerdem möchte ich klarstellen, dass ich den Begriff „Verteilungsanalysen“ sehr weit gefasst habe:

Bei der Schätzung multinomialer Variablen (d. h. der Algorithmus schlägt einen von mehreren möglichen kategorischen oder nicht numerischen Werten vor, z. B. „welches Buch als nächstes zu empfehlen ist“) würden Verteilungsanalysen die relative Häufigkeit jeder Kategorie/jedes möglichen Ausgabewerts messen – und wenn es zu viele sind, um in eine übersichtliche kleine Tabelle zu passen, kann der Bericht z. B. nur die fünf wichtigsten auflisten und die anderen nach Kategorie zusammenfassen (z. B. Belletristik gegenüber Sachbüchern).
Kontinuierliche Ergebnisse können in einer einzigen Metrik (z. B. dem Durchschnitt oder Median) zusammengefasst werden, und dies ist für die Benutzer oft am einfachsten zu verdauen (wenn Sie z. B. Buchhändler sind, wären Sie wahrscheinlich alarmiert, wenn Sie sehen würden, dass der Durchschnittspreis der von Ihrem Algorithmus empfohlenen Bücher nach unten tendiert – diese Tendenz zur Sparsamkeit könnte Sie in den Ruin treiben!); manchmal ist es jedoch sinnvoller, Wertebereiche zu definieren (z. B., fünf breite Bereiche von Buchpreisen) und zu verfolgen, wie sich die (prozentuale) Verteilung der Fälle über die fünf Bereiche im Laufe der Zeit verändert (wenn Sie z. B. feststellen, dass Ihr Algorithmus immer weniger Bücher mit mittlerem Preis empfiehlt und stattdessen entweder extrem billige oder extrem teure Bücher verkauft, bleibt der Durchschnittspreis pro Buch vielleicht konstant, aber Sie haben immer noch etwas sehr Eigenartiges vor sich, das vielleicht in Ihrem besten wirtschaftlichen Interesse liegt, vielleicht aber auch nicht). Bei der Angabe von Spannen kontinuierlicher Werte ist es ebenfalls von großem Wert, ausdrücklich den Mindest- bzw. Höchstwert anzugeben, der in den Daten vorkommt, da so genannte Ausreißer sowohl eine Ursache als auch ein Symptom für Verzerrungen sein können.
Bei binären Ergebnissen (ja/nein) ist die natürliche Wahl die Berechnung eines Prozentsatzes (d. h. eine einzige Kennzahl), obwohl Sie vielleicht auf Situationen achten sollten, in denen sich hinter der vereinfachenden Schwarz-Weiß-Sicht der Welt tatsächlich eine dritte Kategorie („weiß nicht“) verbirgt und daher die Unterscheidung von drei Kategorien viel sinnvoller wäre. Wenn zum Beispiel ein Jahr nach der Kreditvergabe viele Kunden mit 60–89 Tagen im Rückstand sind, sind sie zwar technisch gesehen (noch) nicht ausgefallen, aber ich würde sehr zögern, sie als „gute“ Kunden zu bezeichnen.

Aber auch wenn wir die Dinge einfach halten, ist es wichtig zu wissen, wonach man fragen muss und wie man die Ergebnisse interpretiert. Ich möchte daher vier wichtige Konzepte vorstellen:

Die Unterscheidung von Fluss- und Bestandszahlen
Signifikanzprüfung
Marginale Signifikanztests, bei denen Sie den Effekt anderer Ursachen (die nicht mit Verzerrungen zusammenhängen) für Unterschiede bei den Ergebnissen herausrechnen
Wesentlichkeit

Zunächst einmal ist es wichtig, dass Sie sich Gedanken darüber machen, ob Sie Bestands- oder Flusszahlen betrachten. Stellen Sie sich ein Kreditportfolio vor. Die Stromzahlen beziehen sich auf neue Kredite, die eröffnet werden (d. h. sie fließen in das Portfolio); die Bestandszahlen beziehen sich auf den Gesamtbestand der Kredite in Ihrem Portfolio, die zu verschiedenen Zeitpunkten entstanden sind. Wenn Sie mit Hypotheken oder anderen Krediten handeln, die seit vielen Jahren aktiv sind, können einige Kredite sehr alt sein; andere Kredite könnten buchstäblich erst gestern gebucht worden sein.

Ich habe bereits kurz erwähnt, dass Bestandszahlen problematisch sein können, weil sie statistische Artefakte verursachen können – bei Krediten, die erst gestern vergeben wurden, ist es technisch unmöglich, dass sie bereits 90 Tage überfällig sind (was das typischste Kriterium für die Einstufung eines Kredits als „ausgefallen“ ist); im Gegensatz dazu hatte eine Kohorte von Krediten, die seit fünf Jahren in Ihren Büchern stehen, bereits reichlich Gelegenheit, in Verzug zu geraten, so dass der Prozentsatz der Kredite, die in Verzug sind, viel höher sein wird. Es macht überhaupt keinen Sinn, diese alten Kredite mit neuen Krediten zu vergleichen – man muss Äpfel mit Äpfeln vergleichen. Aus diesem Grund empfehle ich immer die Analyse von Flusszahlen.

Das zweite Konzept, das ich Ihnen ans Herz legen möchte, ist das der statistischen Signifikanz. Wenn Sie heute Abend nach Hause kommen und feststellen, dass Ihr Fünfjähriger sein Zimmer aufgeräumt hat, bedeutet das dann, dass er sich plötzlich dem Konzept der perfekten Sauberkeit verschrieben hat und dass unordentliche Zimmer der Vergangenheit angehören? Sie würden sich das wünschen, aber Sie wissen es wahrscheinlich besser. Sie würden erst dann an ein Wunder glauben, wenn Sie sehen, dass Ihr Sohn Abend für Abend ein sauberes Zimmer vorweisen kann. Das Gleiche gilt für Daten – die Daten versuchen vielleicht nicht absichtlich, Sie in eine gute Stimmung zu versetzen, damit Sie jemandem ein Eis kaufen oder einen Ausflug in den Zoo genehmigen, aber sie können trotzdem aufgrund eines Zufalls gut oder schlecht aussehen. Die statistische Signifikanz ist eine sehr ausgefeilte Antwort auf die Frage: „Habe ich genug Fakten gesehen, dass ich glauben kann, dass sich die Welt wirklich verändert hat?“

Ihr Datenwissenschaftler sollte Ihr Ansprechpartner sein, um dies in Zahlen auszudrücken. Wenn Sie nur zwei Durchschnittswerte vergleichen wollen, kann der t-Test Ihnen sagen, wie wahrscheinlich es ist, dass ein Unterschied, über den Sie sich aufregen, ein Zufall ist.² Sie stellen zum Beispiel fest, dass Ihr Algorithmus zur automatischen Beurteilung des Lebenslaufs in dieser Woche nur eine Frau von sieben Bewerbern ausgewählt hat (magere 14 %), während es in der letzten Woche drei von fünf waren (fortschrittliche 60 %). Bedeutet dies, dass Ihr Algorithmus eine schädliche Voreingenommenheit entwickelt hat? Das ist schwer zu sagen, denn der Frauenanteil ist um 75 % gesunken, aber gleichzeitig haben wir diese Woche nur zwei Frauen weniger und zwei Männer mehr als letzte Woche, was durchaus ein Zufall sein kann.

Ihr Freund, der Datenwissenschaftler, wird in der Lage sein, in weniger als einer Minute einen t-Test in Ihrem Standard-Excel-Programm durchzuführen. Das Ergebnis könnte einen P-Wert von 20 % anzeigen, was bedeutet, dass, wenn sich nichts geändert hat und Ihr Algorithmus weiterhin Frauen mit der gleichen Wahrscheinlichkeit wie zuvor bevorzugt (dies wird als Nullhypothese bezeichnet), Sie immer noch eine 20 %ige Chance haben, dass die Zahlen genau so ausfallen, wie Sie sie gesehen haben. Statistiker suchen in der Regel nach einem P-Wert von höchstens 5–10 %, um den Ergebnissen Glaubwürdigkeit zuzuschreiben, und damit ein Ergebnis „hochsignifikant“ ist, sollten Sie einen P-Wert von nicht mehr als 0,1–1 % sehen. Mit anderen Worten, die Handvoll Lebensläufe, die Sie gesehen haben, ist aus statistischer Sicht ziemlich bedeutungslos.

Dies wiederum ist hilfreich bei der Entscheidung, wie viele Daten Sie sammeln müssen, bevor Sie eine aussagekräftige Analyse durchführen können (z. B. ob Sie alle Anträge über einen Zeitraum von einem Tag, einer Woche oder vielleicht einem Quartal „speichern“ sollten, bevor Sie die Bewilligungsquoten betrachten). Als sehr, sehr grobe Faustregel kann man sagen, dass es bei weniger als 30 Beobachtungen sehr schwer ist, einen Zufall von einem echten Trend zu unterscheiden. (Obwohl dies in den Sozialwissenschaften ständig geschieht – was wiederum zu der so genannten Replikationskrise in der Psychologie geführt hat – glauben Sie mir das!)³ Größere Stichproben sind immer besser, und im Allgemeinen strebe ich an, mindestens 100 Fälle zu haben, so dass ich für meine Analyse eher vierteljährliche Intervalle wähle, wenn ich dann 100–200 Fälle haben kann, als monatliche Intervalle mit 30–50 Fällen.

Drittens möchte ich Ihnen ein kleines statistisches Kunststück zeigen, bei dem Ihnen Ihr Freund, der Datenwissenschaftler, helfen könnte und das algorithmische Verzerrungen auf eine viel effektivere Weise beleuchtet als Ihre einfachen Bevölkerungsdurchschnitte.

Lassen Sie uns noch einmal das Beispiel der Preisgestaltung bei Fluggesellschaften aufgreifen. Sie hatten eine interessante neu gegründete Fluggesellschaft, die ihre Tickets nach Körpergewicht abrechnet – aber natürlich spiegeln die Ticketpreise auch die geflogene Strecke wider, ob das Ticket am Tag vor dem Abflug oder drei Wochen im Voraus gekauft wurde und wie viele Plätze zum Zeitpunkt der Buchung noch im betreffenden Flugzeug verfügbar waren. Sie hatten auch die Befürchtung, dass Ihre Fluggesellschaft Männer diskriminieren könnte (nicht zuletzt, weil der gesamte Vorstand aus Frauen besteht!).

Wenn Sie beweisen wollen, dass Ihre Fluggesellschaft Männer nicht diskriminiert, können Sie Ihren Algorithmus weitergeben, und jeder kann überprüfen, dass das Geschlecht des Passagiers nicht in den vom Algorithmus berechneten Preis eingeht. Das Verkaufspersonal der Fluggesellschaft (ebenfalls alles Frauen) hat jedoch die Möglichkeit, beim Verkauf von Tickets am Telefon oder am Flughafen Rabatte zu gewähren. Ihr befreundeter Datenwissenschaftler kann daher einen Regressionstest durchführen, der versucht, den vom Fluggast gezahlten Endpreis durch nur zwei Variablen zu erklären – die Ausgabe des Algorithmus und das Geschlecht des Fluggastes. Wenn diese Analyse zeigt, dass beide Faktoren bei der Vorhersage des gezahlten Endpreises signifikant sind, haben Sie einen ziemlich starken Beweis dafür, dass Ihre Fluggesellschaft Männer diskriminiert. Sie haben auch herausgefunden, dass in diesem Fall nicht der Algorithmus selbst das Problem war, sondern die menschliche Interaktion, die die Fluggesellschaft zuließ, um das Ergebnis des Algorithmus zu verändern (vielleicht haben männliche Passagiere geflirtet, während weibliche Passagiere hart um ein Schnäppchen gekämpft haben). Dies ist eine wichtige Erkenntnis – sehr oft werden Verzerrungen nicht durch eine algorithmische Verzerrung verursacht, sondern durch eine von Vorurteilen geprägte mamuelle Krrektur, die durch einen hybriden Entscheidungsansatz ermöglicht wird. In Anbetracht dessen, was wir über die Voreingenommenheit menschlichen Verhaltens wissen, ist dies keineswegs überraschend.

Stellen Sie sich nun aber vor, dass die Preisabteilung Ihrer Fluggesellschaft sehr viel zurückhaltender und weniger kooperativ ist. Das Büro für Öffentlichkeitsarbeit besteht darauf, dass abgesehen von den oben genannten objektiven Faktoren keine Passagiermerkmale berücksichtigt werden – weigert sich aber, den Algorithmus mit jemandem zu teilen. Es stellt sich jedoch heraus, dass ein großes Reisebüro über Daten zu bestimmten Tickets verfügt, die es von dieser Fluggesellschaft gekauft hat und die für eine statistische Analyse verwendet werden können. In diesem Fall kann Ihr befreundeter Datenwissenschaftler Folgendes tun: Er erstellt zunächst ein Preismodell zur Schätzung des Ticketpreises unter Verwendung aller verfügbaren Faktoren außer dem Geschlecht des Passagiers. Im Wesentlichen versucht er, den Preisgestaltungsalgorithmus der Fluggesellschaft nachzubilden. Nennen wir dieses erste Modell den „objektiven“ Preis des Tickets. In einem zweiten Schritt führt er eine Zwei-Faktoren-Regression durch, bei der er den vom Fluggast gezahlten Preis anhand des objektiven Preises und des Geschlechts des Fluggastes vorhersagt. Auch hier möchte man wissen, ob sich das Geschlecht als signifikanter Faktor für die Erklärung des Preises erweist. Da in diesem Fall die Tickets von einer Maschine gekauft wurden (das Reisebüro fragt den Computer der Fluggesellschaft ab, ohne dass eine menschliche Interaktion auf Seiten der Fluggesellschaft stattfindet), haben Sie nun den Beweis, dass der Algorithmus der Fluggesellschaft im Ergebnis Männer diskriminiert. Der Grund dafür ist, dass man nicht weiß, ob das Geschlecht direkt in den Preisalgorithmus einfließt oder ob es sich um einen indirekten Effekt handelt.

Viertens und letztens: Ich möchte das Konzept der Signifikanz nicht erwähnen, ohne auch die Wesentlichkeit zu erwähnen. Signifikanz ist die erste Verteidigungslinie – bei insignifikanten Phänomenen ist das Risiko groß, dass es sich nur um Zufall und Rauschen handelt, und sie sollten daher nicht in Entscheidungen einfließen. Auf der anderen Seite sind die Menschen manchmal so begeistert von einem „signifikanten“ Ergebnis, dass sie seine Unwesentlichkeit nicht bemerken. Insbesondere bei sehr großen Datensätzen können sehr kleine absolute Veränderungen statistisch signifikant werden. Bei einer ausreichenden Anzahl von Daten kann beispielsweise selbst ein Mehrpreis von durchschnittlich 23 Cent für Tickets für Männer oder eine Annahmequote von 77,1 % für weibliche Bewerber im Vergleich zu 77,3 % für Männer statistisch signifikant sein. In einer solchen Situation stellt sich die Frage, ob diese relativ kleine Differenz wirklich einen hohen Aufwand wert ist, der vielleicht erforderlich wäre, um dieses Problem zu beheben – vor allem, wenn man bedenkt, dass das Fehlen eklatanterer Unterschiede darauf hindeutet, dass das System keinen schwerwiegenden Fehler aufweist und es sich bei den relativ geringen Unterschieden möglicherweise um unerwünschte Effekte handelt, die nur sehr schwer zu beheben sind. Ich behaupte nicht, dass kleine Unterschiede niemals wichtig sein können (wenn Sie ein Land mit einer Milliarde Menschen regieren, könnten 77,1 % gegenüber 77,3 % eine Million Frauen betreffen) – ich will nur darauf hinweisen, dass Sie, bevor Sie aufgrund eines signifikanten Hinweises auf eine Voreingenommenheit Maßnahmen ergreifen, auch einen Blick auf die Wesentlichkeit der Verzerrung werfen und eine fundierte Entscheidung treffen sollten, ob das Ausmaß des Effekts Ihre Zeit und Ihre Bemühungen wert ist!

Wie man eine ordnungsgemäße Analyse manueller Korrekturen durchführt

Bei der Betrachtung von manuellen Anpassungen versuchen Sie, drei Aspekte zu bewerten:

Ist das absolute Niveau der Korrekturquote zu hoch?
Gibt es „Hot Spots“ von Korrekturen, die auf Probleme mit meinem Algorithmus bei bestimmten Fallarten hinweisen könnten?
Weisen die Ursachencodes auf spezifische Probleme mit meinem Algorithmus hin?

Es gibt keinen absoluten Maßstab dafür, welche manuelle Korrekturquote gut oder schlecht ist. Wenn man jedoch bedenkt, dass Algorithmen darauf ausgelegt sind, viele schädliche Verzerrungen zu beseitigen, Kosten zu sparen und den Prozess zu beschleunigen, sollte man erewarten dürfen, dass Algorithmen die meisten Entscheidungen richtig treffen. Als Faustregel gilt daher, dass ich keine Überschreibungsrate von mehr als 20 % sehen möchte, und in vielen Fällen (z. B. bei leistungsstarken Kreditscores – zur Definition von „leistungsstark“ verweise ich hier auf die im nächsten Abschnitt erörterten Messgrößen für die Trennschärfe) habe ich oft Korrekturquoten von weit unter 5 % gesehen. Ein unmittelbares Warnzeichen ist im Allgemeinen ein signifikanter Anstieg der Korrekturquoten, und ein zweites Warnzeichen ist eine stabile Korrekturquote, die viel höher zu sein scheint als das, was man in vergleichbaren Situationen erwarten würde.

Die Identifizierung von „Hot Spots“ kann auf zwei Arten erfolgen. Der „Brute-Force“-Ansatz besteht darin, einfach die Korrekturquoten einzelner Segmente (z. B. Männer gegenüber Frauen) zu betrachten und jedes Segment mit einer signifikant höheren Überschreibungsrate zu identifizieren. Dies ist einfach und praktisch, wenn Sie an einer Verzerrung gegenüber einer begrenzten Anzahl von bekannten Segmenten interessiert sind. Wenn Sie hingegen ganz allgemein das Vorliegen von Verzerrungen kontrollieren wollen, ohne dass Sie eine Vorahnung haben, welche Segmente davon betroffen sein könnten, können Sie einen befreundeten Datenwissenschaftler bitten, einen kleinen Entscheidungsbaum zu erstellen, um die Segmente mit der höchsten Korrekturquote zu ermitteln (dies ist ein statistisches Modell, bei dem die Ja/Nein-Markierung, ob eine manuelle Anpassung des Ergebnisses stattgefunden hat, anhand aller anderen verfügbaren Variablen vorhergesagt wird). Der Baum veranschaulicht genau, wo sich die Korrekturen konzentrieren – zum Beispiel könnten Sie herausfinden, dass „wenn der Antragsteller vom Mars stammt, über 150 Jahre alt ist und mehr als drei untertassenförmige Fahrzeuge besitzt, über 90 % der Anträge eine manuelle Anpassung erfahren“.

Solche Hot Spots sind kein Beweis für eine Verzerrung an sich, aber sie sagen Ihnen genau, wo Sie mit Ihrer Untersuchung beginnen sollten. Sie könnten zum Beispiel feststellen, dass Ihr Algorithmus alle Bewerber der oben erwähnten Klasse von Marsmenschen ablehnt – vielleicht aufgrund eines der in Teil II erörterten Probleme, die auftreten können, wenn die Modellierungsdaten verzerrt sind oder eine bestimmte Klasse von Bewerbern in den Daten sehr selten ist. In diesem Fall könnten Sie Ihren Datenwissenschaftler genau darauf hinweisen, welches Problem im Algorithmus behoben werden muss. Natürlich könnte es sich auch um eine voreingenommene Beurteilung durch Ihre Sachbearbeiter handeln – in diesem Fall könnte der Algorithmus perfekt sein und die Lösung bestünde darin, Ihre Mitarbeiter besser zu schulen.

Die Analyse von Begründungscodes hängt sehr stark von der Struktur ab, die für die Erfassung aussagekräftiger Begründungscodes eingerichtet wurde. Bei Kreditanträgen habe ich häufig beobachtet, dass Kreditsachbearbeiter eine Ablehnung durch den Kreditbewertungsalgorithmus wegen „marginaler Zahlungsrückstände“, die in der Kreditauskunftei gemeldet wurden, übergangen haben. Hier hatte der Algorithmus eine neurotische Persönlichkeit entwickelt: Wenn ein Antragsteller bereits bei einer anderen Bank einen hohen Betrag schuldet und mit der Bedienung dieser Schulden in Verzug ist, ist dies natürlich ein ernstes Warnzeichen. In vielen Fällen kann man jedoch in der Kreditauskunftei sehen, dass der Kunde alle Schulden pünktlich bedient, bis auf einen winzigen Posten, oft weniger als 1 US$. Die Geschichte hinter diesen winzigen Posten hat in der Regel nichts mit dem Kreditrisiko zu tun – manchmal handelt es sich um einen durch Rundung verursachten Systemfehler, und manchmal ist es eine strittige Minimalgebühr, die der Kunde aus Prinzip nicht zahlen will (z. B. hat er das Konto geschlossen, aber die Bank hat eine weitere monatliche Kontogebühr erhoben). Viele Kreditbewertungsmodelle erfassen solche Zahlungsrückstände durch eine sehr grobe Methode, die als Dummy bezeichnet wird – eine binäre Variable, die „ja“ lautet, wenn irgendein Zahlungsrückstand vorliegt, und „nein“, wenn nicht. Als ich dieses Problem durch die Überschreibungsanalyse entdeckte, riet ich der Bank, die Dummy-Variable durch eine kontinuierliche Variable zu ersetzen, die den säumigen Betrag im Verhältnis zu einer vernünftigen Benchmark misst (z. B. die Gesamtverschuldung des Kunden). Eine solche Variable beseitigt die neurotische Voreingenommenheit des Algorithmus gegenüber kleinen Zahlungsrückständen und ist gleichzeitig effektiver bei der Erfassung der Warnung, die von großen Zahlungsrückständen ausgeht.⁴

Bewertung der Trennschärfe

Bevor wir uns mit der Kalibrierung befassen, sollten wir uns mit der Trennschärfe befassen, weil ich glaube, dass dies das Verständnis der fortgeschrittenen Analysen der Kalibrierung für Laien erleichtern wird.

Wir haben bereits den Gini-Koeffizienten kennengelernt, um die Trennschärfe eines Algorithmus für binäre Ergebnisse zu bewerten. Ein sehr ähnliches, aber nicht ganz identisches Maß, das häufig verwendet wird, ist die Kolmogorov-Smirnov-Statistik (oder einfach die K-S-Statistik). Sie sieht aus und fühlt sich an wie Gini (und wird auch auf einer Skala von 0 bis 100 angegeben), aber für denselben Algorithmus sind die K-S-Werte in der Regel etwas niedriger, manchmal bis zu 10–15 Punkte (z. B. wo Gini 50 ist, kann K-S im Bereich von 37–42 Punkten liegen). Beide Statistiken werden anhand einer Stichprobe berechnet, bei der Sie sowohl die Vorhersage Ihres Algorithmus als auch das tatsächliche Ergebnis kennen. Ich persönlich bevorzuge Gini. Während K-S im Wesentlichen einen einzigen Punkt in der Verteilung der Vorhersagen und Ergebnisse misst (nämlich den Punkt, an dem der Algorithmus „am besten“ ist), berücksichtigt Gini jede einzelne Vorhersage und ist daher weniger nachsichtig, wenn der Algorithmus beispielsweise für einen bestimmten Bereich von Vorhersagen (wie die Schätzung der Haare bei sehr kurzen Menschen) schwach ist, was auch erklärt, warum die Zahlen etwas unterschiedlich sind. Beide Messgrößen sind jedoch ähnlich nützlich – die wichtigste Empfehlung ist, nur eine von ihnen zu verwenden, weil man dann immer Äpfel mit Äpfeln vergleicht, wenn man Algorithmen miteinander vergleicht.⁵

Für kontinuierliche Ergebnisse (z. B. die Anzahl der Haare) machen die Gini- und K-S-Metriken keinen Sinn (da sie für binäre Ergebnisse definiert sind). Noch schlimmer ist, dass es keine ähnlich elegante und zufriedenstellende Metrik gibt. Korrelationsmetriken neigen dazu, durch Ausreißer – Einzelfälle, die sich stark von allen anderen Fällen unterscheiden – übermäßig verzerrt zu werden (stellen Sie sich einen einzelnen Gorillamann in Ihrer Stichprobe vor, der riesig ist und aufgrund eines genetischen Defekts ein dichtes Fell hat). Ein sehr praktischer Ansatz, den ich als sehr nützlich empfunden habe, ist die Betrachtung der Streuung zwischen Dezilen. Ein Dezil ist eine äußerst nützliche Sache – man nimmt eine Stichprobe und unterteilt sie in zehn gleich große Teile (man kann auch nur vier oder fünf Teile bilden, die Quartile oder Quintile genannt werden – oder wirklich jede andere Stückelung, solange die Anzahl der Fälle pro Abschnitt groß genug ist, um aussagekräftig zu sein – denken Sie an meine Faustregel von 100–200 Fällen). Sie messen dann einfach das Verhältnis zwischen dem durchschnittlichen Ergebnis des Dezils mit den niedrigsten Prognosen und dem Dezil mit den höchsten Prognosen.

Beispiel: Nehmen wir an, ich habe meinen Haar-Algorithmus auf eine Stichprobe von 1000 Personen angewendet. Die 100 Fälle mit der kleinsten vorhergesagten Anzahl von Haaren haben Schätzungen zwischen 47.312 und 63.820 Haaren; die 100 Fälle mit der größten vorhergesagten Anzahl von Haaren liegen zwischen 153.901 und 178.888 Haaren. Nun berechne ich die durchschnittliche tatsächliche Anzahl von Haaren in jedem der beiden Dezile und erhalte Werte von 51.123 bzw. 181.309 Haaren.⁶ Das Verhältnis der beiden ist 3,5, d. h. im obersten Dezil ist die Anzahl der Haare im Durchschnitt 3,5 Mal größer als im untersten Dezil. Für alle praktischen Zwecke ist dies ein wesentlicher und daher nützlicher Unterschied – mein Algorithmus ist eindeutig hilfreich, wenn es beispielsweise darum geht, zu entscheiden, wie viel man für das Haar einer bestimmten Person bezahlen möchte.

Die Untersuchung von Dezilen (oder der von Ihnen gewählten Anzahl von Bereichen) ist aus vielen Gründen sinnvoll. Sie können auch den Gini-Wert für binäre Ergebnisse auf der Grundlage von Dezilen berechnen, was sich bei der Bewertung der Kalibrierung als nützlich erweist (siehe nächster Abschnitt). Das Konzept einer „Gruppe“ von Personen mit einer niedrigen oder hohen Schätzung ist auch bei der weiteren Ursachenanalyse hilfreich – Sie könnten beispielsweise beschließen, sich Personen mit einer sehr hohen geschätzten Anzahl von Haaren „anzusehen“ und eine Handvoll Fälle innerhalb dieser Gruppe zu untersuchen oder sie sogar persönlich zu besuchen (nehmen Sie sich aber vor Gorillas in Acht!).

Genau wie bei Ihrer Verteilungsanalyse wird die Analyse der Trennschärfe am aussagekräftigsten, wenn Sie die Ergebnisse vergleichen (wenn Sie beispielsweise wissen, dass eine gute Kredit-Scorecard für die Kreditvergabe an kleine Unternehmen einen Gini-Wert von 60–75 hat (vorausgesetzt, es gibt ein Kreditbüro in Ihrem Markt), Ihre Bank aber einen Gini-Wert von 30–40 hat, dann ist es wahrscheinlich, dass Ihre Scorecard ein Problem hat; z. B. könnte eine Voreingenommenheit gegenüber kleinen Unternehmen vorliegen oder das oben erwähnte Problem mit den kleinen Zahlungsausfällen, die in der Kreditauskunftei gemeldet werden, oder eine Voreingenommenheit Ihres Datenwissenschaftlers gegenüber „kreativen“ (aber für dieses Segment kritischen) Datenquellen, wie z. B. die Art und Weise, wie der Inhaber des kleinen Unternehmens Ihre Banking-App für sein privates Sparkonto nutzt). Es ist auch sehr aufschlussreich (und besorgniserregend), wenn Sie einen plötzlichen Rückgang der Trennschärfe beobachten. Und es kann auch sinnvoll sein, einzelne Segmente aufzuschlüsseln.

Wenn man eine Grundgesamtheit in verschiedene Segmente unterteilt und die Trennschärfe eines Algorithmus nach Segmenten berechnet, stellt man oft erhebliche Unterschiede fest. Ich hatte zum Beispiel einmal einen Kunden, bei dem das Anwendungsmodell für kleine Unternehmen einen Gini-Wert von 50 für ein Segment erreichte, aber nur 12 für ein anderes Segment! Ein Gini-Wert von 50 ist nicht der beste, den ich je gesehen habe, aber definitiv ausreichend, um ein rentables Kreditgeschäft zu betreiben. Ein Gini von 12 ist das Äquivalent zum Autofahren, nachdem man eine Zeitung an die Windschutzscheibe geklebt hat. Wenn unser Gorilla im Begriff ist, auf Ihr Auto zu treten, können Sie wahrscheinlich den Schatten seines Fußes durch die Zeitung sehen – aber ansonsten sind Sie so gut wie blind. (Falls das noch nicht deutlich genug war: Verwenden Sie keinen Algorithmus mit einem Gini-Wert von 12 und glauben Sie, dass Sie viel besser abschneiden als ein Würfel!) Der Fehler dieses Modells lag in der unangemessenen Behandlung fehlender Werte. Das Modell verwendete verschiedene Daten wie das Unternehmensprofil des Antragstellers und den Bericht des Kreditbüros. Für einige Antragsteller gab es keinen Kreditbürobericht, weil das Unternehmen noch nie einen Kredit in Anspruch genommen hatte. In diesen Fällen ging das Modell von der unverblümten Annahme aus, dass der Antragsteller eine mittelmäßige, wenn auch nicht tödlich schlechte Kreditgeschichte hatte. Dieser voreingenommene Ansatz diskriminierte viele hervorragende Unternehmen und schadete der Fähigkeit der Bank, Kredite an gute Unternehmen zu vergeben. Glücklicherweise stellte unsere einfache Analyse diese Verzerrung fest, und der Kunde löste das Problem, indem er einen neuen, unvoreingenommenen Algorithmus für Bewerber ohne Kredithistorie entwickelte.

Es ist jedoch wichtig zu betonen, dass eine Unterteilung in Teilsegmente nur bis zu einem gewissen Grad sinnvoll ist. Der Grund dafür ist, dass Gini die Trennschärfe eines Algorithmus misst, die von einer Streuung der Ergebnisse in den zugrunde liegenden Daten abhängt. Nehmen wir an, ich habe einen Algorithmus entwickelt, der Ihnen sagt, ob eine Person jemals ein Verbrechen begangen hat. Welchen Gini würden Sie erwarten, wenn ich ihn an einer Population von Hochsicherheitsgefängnisinsassen testen würde? Er wäre gleich Null! Und warum? Nehmen Sie das Dezil der Gefängnisinsassen mit der geringsten Wahrscheinlichkeit, ein Verbrechen begangen zu haben – wie viele von ihnen würden Sie erwarten, dass sie tatsächlich ein Verbrechen begangen haben? Offensichtlich 100 %, vielleicht abzüglich ein oder zwei seltsamer Fälle von Justizirrtum. Das Dezil mit der höchsten Wahrscheinlichkeit, eine Straftat begangen zu haben, liegt ebenfalls bei 100 % – es gibt also keine Streuung der Wahrscheinlichkeit von inhaftierten Kriminellen, kriminell zu sein, und daher ist es für den Algorithmus unmöglich, irgendeine Trennschärfe zu zeigen.

Ein Beispiel aus dem wirklichen Leben ist ein Kunde von mir, der eine neue Kreditscorekarte eingeführt hat, die ich für ihn entwickelt hatte. Ich hatte geschätzt, dass seine Kreditausfälle dank des neuen Algorithmus um mehr als 40 % sinken würden, und er war sehr erfreut, dass genau das eingetreten war. Er berechnete dann jedoch den Gini-Wert für meinen Algorithmus anhand eines aktuellen Kreditjahrgangs und war sehr verärgert darüber, dass der Gini-Wert um 15 Punkte im Vergleich zu dem Gini-Wert gesunken war, den der Algorithmus zu dem Zeitpunkt erreichte, als ich ihn entwickelte. Die Erklärung war einfach: Durch die Eliminierung der schlechtesten Antragsteller (die 40 % aller Verluste ausmachten) waren die verbleibenden Antragsteller, die von meinem Algorithmus bewilligt wurden, sehr viel homogener, so dass innerhalb dieser Gruppe die verbleibende diskriminierende Kraft sehr viel geringer war.

Ein Blick auf unsere Dezile kann dies verdeutlichen: Stellen Sie sich einen Moment lang alle zehn Dezile vor. Das Dezil mit dem niedrigsten Risiko könnte eine Ausfallquote von nur 0,2 % haben; das Dezil mit dem höchsten Risiko könnte eine Ausfallquote von 43 % haben. Wenn ich mich entschließe, das schlechteste Dezil der Bewerber abzulehnen, bleiben nur noch neun Dezile übrig; das nun „schlechteste“ Dezil könnte eine Ausfallquote von nur 12 % haben, und wenn ich dieses Dezil ebenfalls ablehne, könnte das nächstschlechtere Dezil sogar eine Ausfallquote von nur 5 % haben. Wenn ich nur das allerbeste Dezil zulasse, könnte mein Gini für dieses sehr sichere Segment sehr wohl nahe bei 0 liegen.

Aus diesem Grund ist ein niedriger Gini von Teilsegmenten lediglich ein nützliches Warnzeichen, aber kein sicherer Beweis für ein Problem.

Bonus-Bemerkung: Wie bereits in Kap. 12 angedeutet, bin ich von Trefferquoten und der Berechnung von Typ-I/II-Fehlertabellen weit weniger angetan. Diese verwechseln die Trennschärfe des Algorithmus mit der Angemessenheit der völlig unabhängigen Entscheidung, wo der Grenzwert für Annahme-/Ablehnungsentscheidungen gezogen werden soll. Wenn Sie sich jedoch nur dafür interessieren, ob in der Vergangenheit die richtigen Entscheidungen getroffen wurden (auf der Grundlage des Algorithmus und der von Ihrem Unternehmen gewählten und auf der Schätzung des Algorithmus basierenden Entscheidungslogik), dann sind diese Messgrößen nützlich.

Wie man die Kalibrierung eines Algorithmus bewertet

Da Sie nun mit dem Konzept der Einteilung in Gruppen (z. B. in Dezile) vertraut sind, wird die Bewertung der Kalibrierung eines Algorithmus zum Kinderspiel. Das wichtigste Konzept, das Sie sich merken müssen, ist die Unterscheidung zwischen Kalibrierungsproblemen im Allgemeinen und Kalibrierungsproblemen in einzelnen Bereichen.

Auf der höchsten Ebene können Sie die Ergebnisse mit den Prognosen für die gesamte Ihnen zur Verfügung stehende Datenbank vergleichen. Ähnlich wie bei der Verteilungsanalyse empfehle ich Ihnen dringend, sich auf Flusszahlen zu konzentrieren – zum Beispiel auf einzelne Jahrgänge von Darlehen. Der wunderbare Begriff „Jahrgang“ verdient eigentlich einen kleinen Umweg. Der Begriff wird auch für teuren französischen Wein verwendet, vermutlich weil er genauso köstlich ist wie die kleine statistische Analyse, die ich hier beschreibe. Die Jahrgangsanalyse ist ein Ansatz zur Bildung von Kohorten, die den Vergleich von Äpfeln mit Äpfeln (und von Trauben mit Trauben) ermöglichen. Die Idee besteht darin, nur Fälle zusammenzufassen, die im selben Zeitraum entschieden wurden – der Zeitraum kann ein Tag, eine Woche, ein Kalendermonat, ein Quartal oder ein ganzes Jahr sein – und beim Vergleich der Ergebnisse zwischen den Jahrgängen immer die Ergebnisse im selben Zeitraum nach der Entstehung zu betrachten. Bei Marketing-E-Mails wäre es also sinnvoll, die Ergebnisse der heutigen E-Mails zwei oder drei Wochen später zu betrachten; bei Hypotheken könnten Sie die Jahrgänge und ihre Ausfallraten fünf Jahre später betrachten.

Was bedeutet das für Sie? Verfolgen Sie mehrere Jahrgänge im Laufe der Zeit und suchen Sie nach systematischen Trends. Wenn Sie beispielsweise die täglichen Klickraten einer Anzeige verfolgen und messen, wie viel Prozent der Personen, die auf die Anzeige klicken, Ihr Produkt tatsächlich kaufen, werden Sie vielleicht feststellen, dass ein immer geringerer Prozentsatz der Personen, die auf die Anzeige klicken, das Produkt auch tatsächlich kaufen. Dies könnte darauf zurückzuführen sein, dass die Konkurrenz ein besseres Angebot macht – oder dass Ihr Algorithmus eine schädliche Verzerrung entwickelt hat und somit zunehmend die falschen Personen anspricht. Ähnlich verhält es sich, wenn Sie die vierteljährlichen Kreditvergaben verfolgen und feststellen, dass in den ersten acht Quartalen nach der Kreditvergabe ein immer größerer Anteil der Kunden in Verzug gerät. Dies ist ein alarmierendes Zeichen und war in der Tat ein Vorbote für die globale Finanzkrise, da bereits 2005 eine Vintage-Analyse von toxischen Home-Equity-Darlehen (d. h. von Immobiliendarlehen, die den Wert des Hauses bei weitem überstiegen) eine explosionsartige Zunahme der Zahlungsausfälle angezeigt hätte. Leider wird diese sogenannte Vintage-Analyse viel zu wenig genutzt!

Betrachten wir nun die Jahrgänge im Zusammenhang mit der Kalibrierung. Wenn Ihre Kreditstrategie darauf abzielt, nur sehr sichere Kunden zuzulassen (vielleicht nur die ersten fünf Dezile), hätten Sie vielleicht für die im ersten Quartal des letzten Jahres vergebenen Kredite eine Ausfallquote von nur 1,2 % erwarten können. Zu Ihrer Bestürzung müssen Sie jedoch feststellen, dass 2,7 % der Kredite ausgefallen sind.

Dank des Umfangs Ihres Portfolios können Sie Ihr Portfolio jetzt möglicherweise erneut in Dezile unterteilen und die durchschnittliche prognostizierte Ausfallquote mit der tatsächlichen Ausfallquote eines bestimmten Jahrgangs in jedem Dezil vergleichen. Sie werden feststellen, dass die tatsächlichen Ausfallquoten in jedem Dezil wesentlich höher sind als die prognostizierten.⁷ Dies ist eine Manifestation der Stabilitätsverzerrung des Algorithmus – er scheint auf einen Zeitraum mit einer allgemein niedrigeren Ausfallrate kalibriert worden zu sein, als Ihr Portfolio im letzten Jahr erlebt hat (vielleicht weil die Wirtschaft in eine tiefe Rezession eingetreten ist oder weil viele Kunden eine noch nie dagewesene Gewohnheit entwickelt haben, mit Kryptowährungen zu spekulieren und damit Geld zu verlieren). Die Lösung hierfür ist eine Rekalibrierung des Algorithmus – wenn Ihr Algorithmus beispielsweise eine einfache lineare Form hat, wie Sie sie in Kap. 3 gesehen haben, kann Ihr Datenwissenschaftler den Algorithmus einfach durch Anpassung des konstanten Terms c rekalibrieren.⁸

Stellt man hingegen fest, dass die Kalibrierung des Algorithmus für jedes Dezil genau richtig war, mit Ausnahme des fünften Dezils, in dem die tatsächliche Ausfallquote in die Höhe schoss, dann muss etwas ganz anderes vorliegen. Das Problem muss eindeutig von einer kleinen Untergruppe von Antragstellern verursacht werden, die alle oder überwiegend in einem bestimmten Bereich der Kreditwürdigkeit zu landen scheinen (der vom fünften Dezil erfasst wird). Jetzt ist es an der Zeit, Sherlock Holmes zu Rate zu ziehen – was wir im nächsten Abschnitt rasch tun werden.

Bevor wir dazu kommen, zwei letzte Punkte zur Bewertung der Kalibrierung. Zunächst einmal haben Statistiker natürlich mehr oder weniger ausgefeilte Ansätze entwickelt, um die Signifikanz eines wahrgenommenen Kalibrierungsproblems zu bewerten. Der am häufigsten verwendete Ansatz ist der Chi-Quadrat-Test, der im Wesentlichen angibt, wie wahrscheinlich es ist, dass die empirisch beobachtete Verteilung der Ergebnisse über die einzelnen Bereiche (z. B. Dezile) zu beobachten ist, wenn man davon ausgeht, dass die Kalibrierung des Algorithmus korrekt ist. Die Herausforderung bei diesen statistischen Tests besteht darin, dass sie etwas zu oft die Alarmglocken läuten lassen. Ich empfehle den Nutzern daher, stets das Konzept der Wesentlichkeit im Auge zu behalten und sich auf Situationen zu konzentrieren, in denen Kalibrierungsprobleme sowohl signifikant als auch wesentlich zu sein scheinen.

Zweitens ist es sehr verlockend, einen Einzelfall zu betrachten, um zu beurteilen, ob die Schätzung angemessen ist. Im Nachhinein (wenn man weiß, dass ein Kunde nicht ausgefallen ist) ist es immer leicht zu sagen: „Wie lächerlich, dass dieser Algorithmus für dieses Unternehmen eine Ausfallquote von 50 % vorausgesagt hat. Wie wir alle sehen können, hat sich dieser Kunde hervorragend verhalten und hätte eine Ausfallwahrscheinlichkeit von weniger als 0,1 % haben müssen“ (womit er in den begehrten AAA-Bereich fallen würde). Der Trugschluss besteht darin, dass es einen anderen Kunden gegeben haben könnte, der ähnlich sicher aussah, aber in Wirklichkeit aufgrund einer waghalsigen Wette auf Kryptowährungen in Flammen aufgegangen ist. Wenn diesem Kunden ebenfalls eine Ausfallwahrscheinlichkeit von 50 % zugewiesen worden wäre, hätte das Modell tatsächlich gesagt: „Hier sind zwei ähnlich riskante Kunden, von denen ich erwarte, dass einer ausfällt, aber ich weiß nicht, welcher.“ Sich für denjenigen zu entscheiden, der nicht ausgefallen ist, und zu behaupten, das Modell habe sich geirrt, ist daher ein wenig unaufrichtig. Allgemeiner ausgedrückt: Selbst wenn eine sorgfältigere Analyse (z. B. die Bewertung der Ausfallquote einer großen Gruppe von Kunden mit einer sehr hohen prognostizierten Ausfallwahrscheinlichkeit) zweifelsfrei beweisen würde, dass der Algorithmus voreingenommen ist, ist die Erörterung eines Einzelfalls nicht sehr fair und nützlich, da der Sprecher zwangsläufig auch zahlreiche Voreingenommenheiten hat (nicht zuletzt den sog. Rückschaufehler).

Signifikanz und Normalbereiche

Um die Überwachung von Algorithmen praktisch und effizient zu gestalten (und damit sicherzustellen, dass sie auch tatsächlich stattfindet), ist es am besten, eine Reihe von Standardberichten zu definieren, die regelmäßig erstellt werden (je nachdem, wie lange es dauert, bis genügend Fälle für eine aussagekräftige Flussanalyse gesammelt sind – meine Faustregel sind mindestens 100 –, empfehle ich im Allgemeinen, dies wöchentlich bis vierteljährlich zu tun) und automatische „Stolperdrähte“ zu definieren, die Sie warnen, wenn eine Kennzahl außerhalb des Bereichs liegt, den Sie als „normal“ ansehen.

Früher hatte ich einen weisen Freund (der leider vor langer Zeit verstorben ist), der mich oft scherzhaft fragte: „Was ist normal?“ Es ist wichtig, dass Sie die Richtlinien hier an Ihre Bedürfnisse anpassen. Das bedeutet, dass Sie die Stolperdrähte zumindest vorübergehend lockern sollten, wenn Sie mehr Warnungen erhalten, als Sie in Ihrer begrenzten Arbeitszeit abarbeiten können, und dabei die meiste Zeit zu dem Schluss kommen: „Ich denke, es muss in Ordnung sein.“ Und Sie sollten die Grenzwerte verschärfen, wenn selbst Abweichungen von erwarteten Werten, die viel kleiner sind als die hier vorgeschlagenen mechanistischen Richtlinien, für Sie unangenehm oder sogar inakzeptabel wären. Damit wird anerkannt, dass es so etwas wie eine perfekte Wahrheit nicht gibt – vieles in der Welt ist ungewiss, und das menschliche Leben ist ein Streben nach Optimierung unter Ungewissheit sowie unter ständiger Einschränkung von Zeit und Ressourcen.

Dies vorausgeschickt, hier ein pragmatischer Ansatz für das Setzen von Stolperdrähten:

Analyse der Verteilung: Bei einzelnen Metriken ist es am besten, die Verteilung im jüngsten Zeitraum mit einem t-Test mit Ihren Referenzdaten zu vergleichen (z. B. mit den Daten, die Sie für die Entwicklung des Algorithmus verwendet haben – die möglicherweise sehr genau geprüft wurden, um Verzerrungen zu vermeiden oder zu beseitigen – oder mit dem Durchschnittswert der gesamten Bevölkerung). Eine sehr pragmatische Alternative besteht darin, dass Ihr Freund, der Datenwissenschaftler, einige statische Annahmen über die Standardabweichung neuerer Daten trifft und auf dieser Grundlage einen festen „Akzeptanzbereich“ festlegt, außerhalb dessen Abweichungen im Mittelwert der verfolgten Verteilungen den t-Test als nicht bestanden gelten lassen.⁹ Und schließlich sollten Sie sich fragen, ob der Schwellenwert, der sich als statistisch signifikant herausstellt, auch für Sie und andere Stakeholder wesentlich ist; wenn nicht, sollten Sie den Bereich vergrößern, bis er ebenfalls eine Wesentlichkeitsschwelle erreicht. Um hingegen die Verteilung der Fälle auf mehrere Kategorien zu verfolgen, können Sie entweder den Chi-Quadrat-Test oder den Populationsstabilitätsindex (PSI) verwenden, der von Banken häufig eingesetzt wird.¹⁰
Analyse der manuellen Korrekturen: Meiner Meinung nach ist es am praktischsten, sich auf eine historische Benchmark zu stützen, die Sie eventuell an etwaige strategische Ziele anpassen. In Ermangelung einer Historie halte ich Korrekturquoten von über 20 % im Allgemeinen für untersuchungswürdig. Dies gilt nur, wenn Sie bei einer hohen Korrekturquote davon ausgehen können, dass menschliche Entscheidungsträger wesentlich besser sind als der Algorithmus und dass die Bedeutung der Entscheidung auch die Zeit rechtfertigt, die Menschen für eine manuelle Anpassung aufwenden – und empirisch gesehen ist das für die meisten Entscheidungssituationen eine hohe Hürde. Wenn Sie andererseits wissen, dass Ihr Algorithmus bestimmte tote Winkel hat, und Sie befürchten, dass Ihre Mitarbeiter nicht genug Zeit aufwenden, um die Entscheidungen des Algorithmus zu kontrollieren, möchten Sie vielleicht auch eine Mindestquote für die manuelle Kontrolle festlegen.
Kalibrierungsanalyse: Der Chi-Quadrat-Test ermöglicht es Ihnen zwar, Ergebnisse zu markieren, die um ein bestimmtes Konfidenzniveau von den erwarteten Werten abweichen, aber meine pragmatische Empfehlung wäre, stattdessen Schwellenwerte nach Wesentlichkeit zu definieren. Wenn Ihr Algorithmus beispielsweise eine Ausfallwahrscheinlichkeit von 2,5 % vorausgesagt hat, Sie aber aus wirtschaftlicher Sicht nicht beunruhigt wären, solange die Ausfallraten unter 3 % liegen, dann sind 3 % ein guter Richtwert. Ein Anstieg der Rate um 20 % ist im Allgemeinen keine besonders große Abweichung (zum Vergleich: Während Finanzkrisen habe ich erlebt, dass die Ausfallraten auf das Fünf- oder Sechsfache des Durchschnittswerts aus „normalen“ Zeiten gestiegen sind).
Analyse der Trennschärfe: Für Gini (binäre Ergebnisse) können Sie Benchmarks auf der Grundlage der Entwicklungsstichprobe und externer Benchmarks abzüglich einer Wesentlichkeitsschwelle festlegen. Angenommen, Sie haben bisher noch nicht viel mit Gini gearbeitet, so könnte ein Toleranzwert von 5 Gini-Punkten ein guter Ausgangspunkt sein. Je kleiner die Fallzahl, je länger die betrachteten Zeiträume und je volatiler der Kontext, desto eher sinkt der Gini-Wert eines Algorithmus um mehr als 5 Punkte.

Wenn Sie sich bezüglich des vernünftigen Akzeptanzbereichs einer Kennzahl unsicher sind, können Sie auch zunächst entscheiden, wie viele Probleme Sie sich in einem bestimmten Zeitraum leisten können, und dann für jede Analyse die größten Abweichungen betrachten, um zu entscheiden, wo Sie den Schwellenwert setzen, um die gewünschte Anzahl von Warnsignalen zu erhalten. Wenn Sie beispielsweise entscheiden, dass Sie bei jeder Analyse zunächst etwa zwei Situationen überprüfen möchten, prüfen Sie für jede Analyse, wie groß die zweitgrößte Abweichung ist, und legen Sie den Auslöser für diese Analyse irgendwo zwischen der zweit- und drittgrößten Abweichung fest. Das Gute an diesem Ansatz ist, dass er sowohl überschaubar ist als auch Sie dazu zwingt, sich mit Ihren Algorithmen und den Daten zu beschäftigen. Wenn eine Ursachenanalyse ein Problem identifiziert, werden Sie sich natürlich fragen, ob andere Algorithmen oder Teilsegmente unter demselben Problem leiden könnten, und Ihre Untersuchungen entsprechend ausweiten.

Im nächsten Abschnitt werden wir erörtern, was Sie tun sollten, wenn eine bestimmte Kennzahl den Stolperdraht auslöst.

Ursachensuche

Wir haben vier breite Angriffslinien zur Erkennung von algorithmischen Verzerrungen erörtert: Verteilungsanalyse, Analyse der manuellen Anpassungen, Bewertung der Kalibrierung und Trennschärfe. Alle vier Analysen funktionieren ein wenig wie ein Bewegungsmelder – wenn ein Alarm ausgelöst wird, wissen wir, dass sich etwas im Garten bewegt hat, aber wir wissen noch nicht, ob es ein Einbrecher oder die Katze des Nachbarn war.

Man kann der Ursachenanalyse positiv oder negativ gegenüberstehen. Die negative Sichtweise würde beklagen, dass es kein einfaches Patentrezept gibt, um den Schuldigen sofort zu finden; die positive Sichtweise ist, dass dies tatsächlich Spaß macht, weil es bei der Suche nach der Ursache für algorithmische Verzerrungen überhaupt nicht um trockene Statistiken geht, sondern um die Entdeckung einer verborgenen Geschichte, die voller unglaublicher Eigenheiten des Lebens ist. Daten wollen mit Ihnen sprechen – sie brennen geradezu darauf, Ihnen ihre Geschichte zu erzählen –, Sie müssen nur die richtigen Fragen stellen und etwas Geduld mitbringen, denn manchmal ist die Geschichte, die Ihnen die Daten erzählen, verworren. Um ehrlich zu sein, geht es meiner Mutter ganz genauso!

Ein Großteil der Detektivarbeit, die Sie leisten müssen, besteht darin, die Wurzeln einer Anomalie in der algorithmischen Ausgabe zu einer zugrundeliegenden Ursache zurückzuverfolgen – vielleicht ein Problem in den Eingabedaten oder ein Problem in dem Prozess, der die Daten erzeugt. Es gibt zwei Werkzeuge, die bei diesem Unterfangen von zentraler Bedeutung sind:

Ich verwende immer gerne Verteilungsanalysen, nicht nur für Outputs, sondern auch für Inputs. Wenn der Algorithmus beispielsweise 12 Eingangsvariablen hat und die Kalibrierungsanalyse darauf hindeutet, dass es eine bestimmte Klasse von Fällen gibt, bei denen der Algorithmus systematisch daneben liegt, vergleichen Sie die Verteilung der 12 Variablen zwischen der Entwicklungsstichprobe und dem Zeitraum, in dem das Problem auftrat. Vielleicht hat sich die Bedeutung der Kategorie „Sonstige“ für einen der 12 Prädiktoren plötzlich geändert, so dass plötzlich viel mehr oder weniger Fälle in der Kategorie „Sonstige“ auftauchen, was einen Hinweis darauf geben würde, wonach Sie in der realen Welt suchen müssen (z. B. werden Sie jetzt Leute, die diese Daten erfassen, fragen, welche Art von Fällen in die Kategorie „Sonstige“ hinein- oder herausgefallen sind).
Das andere Werkzeug ist der Entscheidungsbaum (z. B. ein automatischer Chi-Quadrat-Interaktionsdetektor, allgemein als CHAID bezeichnet), um Faktoren zu identifizieren, die das Teilsegment eingrenzen, in dem das Problem liegt – ein Werkzeug, das ich oben erwähnt habe. Sobald Sie definiert haben, wonach Sie suchen (z. B. Fälle mit einer manuellen Korrektur oder Fälle mit einem großen Klassifikationsfehler, gemessen an der Differenz zwischen vorhergesagtem und tatsächlichem Wert), lassen Sie sich einen Entscheidungsbaum erstellen. Die Kunst besteht darin, zu entscheiden, wie viele und welche prädiktiven Variablen Sie dem Entscheidungsbaum zur Auswahl geben wollen. Wenn Sie Tausende von Attributen in Ihrem Datensatz haben und dem Entscheidungsbaum alle zur Verfügung stellen, werden Sie vielleicht fündig (d. h., der Entscheidungsbaum sagt Ihnen laut und deutlich, wo das Problem liegt) – vielleicht aber auch nicht. Nehmen wir an, Sie hatten einen plötzlichen Anstieg der Zahlungsausfälle, und der erste Versuch (bei dem Sie alle Ihrer mehr als 5000 Variablen in den Algorithmus zur Ermittlung des Entscheidungsbaums eingegeben haben) legt nahe, dass Kunden, die seit zwei Wochen über keinen Kanal mit der Bank in Kontakt getreten sind, ein höheres Ausfallrisiko haben. Kommt Ihnen das bekannt vor? Wenn nicht, versuchen Sie es mit einem Entscheidungsbaum, der nur geografische Marker als Prädiktoren verwendet. Bingo – Sie werden feststellen, dass der Anstieg der Zahlungsausfälle mit einer Küstenregion zusammenhängt, die letztes Jahr von einem Hurrikan heimgesucht wurde; die Naturkatastrophe zerstörte viele Häuser sowie die gewerbliche Infrastruktur und verursachte somit viele Zahlungsausfälle und unterbrach auch die Kommunikation zwischen der Bank und ihren Kunden für zwei Wochen. (Dies ist ein Beispiel für das, was wir zuvor als traumatisches Ereignis bezeichnet haben – ein einmaliges Phänomen in Ihrer (Daten-)Geschichte, das Ihren Algorithmus ernsthaft verzerren kann und ein energisches Eingreifen eines Datenwissenschaftlers erfordert. Es veranschaulicht auch, warum es immer gut ist, mit anderen Personen über Ihre Ursachenanalyse zu sprechen – vielleicht würde sich jemand, der näher an der Katastrophenhilfe beteiligt war, daran erinnern, dass die Menschen komplett außerstande waren, sich mit ihrer Bank in Verbindung zu setzen, und würde daher sogar den rätselhaften Effekt erklären können, den Ihr erster Entscheidungsbaum gefunden hat).

Ein systematischer Ansatz, um jede mögliche Ursache zu testen, wäre ein unerschwinglicher Aufwand – Berater bezeichnen dies oft als „den Ozean einkochen“ (keine sehr effiziente Methode, um ein paar Garnelen für das Mittagessen zu finden, ganz zu schweigen von den Umweltschäden). Stattdessen ist es am besten, einen hypothesengesteuerten Ansatz zu verfolgen: Stellen Sie eine fundierte Vermutung darüber an, was höchstwahrscheinlich passiert ist, basierend auf allem, was Sie über die Daten (einschließlich der simplen Überwachungsanalysen, aber auch in Bezug auf die Entstehung des Algorithmus) und den zugrunde liegenden realen Kontext wissen, und testen Sie Ihre Hypothese dann rigoros. Wenn die Daten sie nicht bestätigen, denken Sie sich die zweitbeste Hypothese aus usw. Das ist der unterhaltsame Teil – stellen Sie sich vor, Sherlock Holmes würde die Situation untersuchen, Hinweise finden und seine Vorstellungskraft mit seinem umfassenden Wissen aus vielen Lebensbereichen kombinieren, um Rätsel zu lösen.

Zur Unterstützung dieses Prozesses (und im Einklang mit unserem hypothesengesteuerten Ansatz) werde ich im Folgenden kurz auf die wichtigsten in Teil II dieses Buches besprochenen Verzerrungen eingehen und vorschlagen, wie sie sich in unseren Standardanalysen zeigen können. Dies wird Ihnen zeigen, wo Sie suchen müssen, wenn Sie eine bestimmte Hypothese untersuchen wollen.

Fehlende Datenzeilen: Sei es, weil der bayerische Datenwissenschaftler voreingenommen war und belgische Biere aus Überzeugung nicht in die Datenbank aufgenommen hat (zugegeben, Biere wie das Mort Subite Oude Kriek, das mit echten Kirschen hergestellt wird, entsprechen wirklich nicht dem deutschen Reinheitsgebot) oder aufgrund eines ehrlichen Fehlers (vielleicht hat er Bier aus anderen Getränken herausgefiltert, indem er ein Freitext-Datenfeld mit der Bezeichnung „Getränkekategorie“ verwendet und dabei übersehen hat, dass Bier, das in den französischsprachigen Teilen Belgiens hergestellt wird, mit „bière“ und nicht mit „bier“, der niederländischen Version, bezeichnet wird): Wie viele Fälle haben Sie in Ihrer Datenbank und wie hoch ist die Gesamtsumme zentraler Kenngrößen (z. B. der gesamte Geldwert oder die Gesamtmenge in Liter oder Flaschen), und sind diese Summen im Vergleich zu externen Statistiken plausibel? Ich bin immer wieder erstaunt, wie oft der ursprüngliche Datensatz, den Datenwissenschaftler von jemand anderem erhalten, unvollständig ist, und wie oft Datenwissenschaftlern die externen Benchmarks fehlen, um im Handumdrehen zu überprüfen, ob der Datensatz tatsächlich vollständig zu sein scheint. Und seien Sie kreativ: Wenn Sie den Gesamtbierverbrauch Belgiens nicht als Benchmark haben, berechnen Sie den durchschnittlichen Pro-Kopf-Verbrauch gemäß Ihrem Datensatz – das ist eine Zahl, die Sie mit anderen Ländern vergleichen können.
Fehlende Spalten (d. h. fehlende Merkmale/prädiktive Variablen): Hier kommt es auf Ihr praktisches Wissen über Inhalte an. Berater sprechen oft von der „Frontlinie“ – den Mitarbeitern, die in Fabriken schrauben, an Kunden verkaufen oder in Werkstätten reparieren. Diese Leute wissen, was wirklich passiert (einschließlich dessen, was in eine Wurst hineinkommt), während Leute in Unternehmenszentralen, Hochschulen und Analysezentren oft das haben, was ich als Lehrbuchwissen bezeichne – eine idealisierte Sicht der Welt, die mehr auf dem basiert, was idealerweise passieren sollte. Falls Sie das noch nicht getan haben, fragen Sie die Leute an der Front, was ihrer Meinung nach die Ergebnisse beeinflusst, und prüfen Sie, wie viel davon in den Datensätzen enthalten ist.
Subjektive Daten: Wenn die Verteilung bestimmter Eingangsparameter (die vom Modell verwendeten Merkmale) von der Realität abweicht, ist die Bewertung eines solchen Parameters oft beeinträchtigt. Wenn Sie keine Benchmark-Verteilung zum Vergleich haben, prüfen Sie, ob die Daten im statistischen Sinne normal aussehen. „Mittlere“ Werte sollten häufig vorkommen, Extremwerte selten; bei Beträgen (die sehr groß werden können – denken Sie an das Einkommen –, aber am unteren Ende eine Grenze haben, z. B. aufgrund des Mindestlohns oder weil sie zumindest nicht negativ werden können) sollten Sie eine Lognormalverteilung erwarten, was bedeutet, dass der Logarithmus des Betrags normalverteilt sein sollte. Hinweis: Wenn 80 % aller Unternehmen, die bei Ihrer Bank einen Kredit beantragen, als „außergewöhnlich gut geführt“ eingestuft werden, wäre dies nicht normal (auch wenn es sich um australische Unternehmen handelt)!
Traumatisierende Ereignisse, die sich in den Daten widerspiegeln: Dies zeigt sich in der Regel in ungewöhnlichen Spitzen in der Ergebnisvariablen (z. B. die Mehrheit der Konten in einer Filiale oder Region, die in einem bestimmten Monat ausgefallen sind); oft führt dies auch zu einer Beeinträchtigung der Trennschärfe des Algorithmus (z. B. hat ein Dezil mit geringerem Risiko eine höhere Ausfallrate als das nächste Dezil mit höherem Risiko). Entscheidungsbäume sind erstaunlich gut in der Lage, solche Problemherde zu lokalisieren, aber es erfordert Kontextwissen, um die Anhaltspunkte zu interpretieren und das reale Ereignis zu erkennen, das sich in den Daten widerspiegelt.
Ausreißer: Diese kleinen Teufelchen verstecken sich oft in den Details. Die Verteilungsanalyse zeigt Ausreißer nur dann an, wenn sie so konzipiert ist, dass sie die in den Daten beobachteten Minimal- und Maximalwerte aufzeigt – was also entscheidend ist. Und da ein Arbeitsschritt in der Modellentwicklung die Behandlung von Ausreißern ist (wobei Ausreißer oft auf einen als „normal“ angesehenen Wertebereich „zurückgeschnitten“ werden, was den Ausreißer weniger einflussreich auf die Modellgleichung machen soll), stellt sich die Frage, ob man sich die Verteilungen der Eingabewerte vor oder nach der Ausreißerbehandlung ansehen sollte. In diesem Fall rate ich dazu, die Verteilungen vor der Behandlung zu betrachten – der Grund dafür ist, dass sich die Behandlung des Ausreißers als unzureichend oder unangemessen erweisen kann. Mir ist es daher viel lieber, dass ein behandelter Ausreißer noch sichtbar ist und somit eine Diskussion über die Behandlung auslöst, als dass ein unsichtbarer, aber schlecht behandelter Ausreißer sich in einem „normalen“ Bereich versteckt und eine Verzerrung verursacht. Wenn dieselbe Art von Ausreißer immer wieder auftritt und Sie sicher sind, dass die Behandlung in Ordnung ist, können Sie beschließen, die behandelten Werte für diese bestimmte Variable zu überwachen.
Artefakte in den Daten, die durch unsachgemäße Datenbereinigung entstanden sind: In diesem Fall müssen Sie natürlich die Merkmale nach der Datenbereinigung analysieren; das betroffene Merkmal kann dann oft sowohl durch die Verteilungsanalyse (da die Behandlung eine neue Konzentration in einem bestimmten Wert, z. B. Null, verursacht haben könnte) als auch durch einen Entscheidungsbaum (einschließlich eines Baums, der Fälle mit hohen manuellen Korrekturen isoliert) identifiziert werden; einige Fälle zeigen sich auch in Problemen mit der Trennschärfe oder der Kalibrierung (weil der Algorithmus für die betroffenen Fälle nicht richtig funktionieren würde).
Stabilitätsverzerrung: Wenn der Zeitraum, der für die Entwicklung des Algorithmus verwendet wurde, sich strukturell von dem Zeitraum unterscheidet, in dem der Algorithmus anschließend eingesetzt wurde, ist die Kalibrierung in der Regel durchgängig fehlerhaft und die Trennschärfe sinkt.
Dynamische Entwicklung von Verzerrungen durch Benutzerinteraktion: Ironischerweise kann diese Verzerrung im Laufe der Zeit zu einer Verbesserung der Trennschärfe führen (es ist, als würden Benutzer und Algorithmus im Gleichschritt einen Tanz aufführen); eine Verteilungsanalyse der Ergebnisse (sowie der Vorhersagen) könnte auch eine zunehmende Konzentration auf einige wenige Elemente zeigen. Am wichtigsten ist jedoch, dass Sie erörtern, wie der Algorithmus verwendet wird, und sich antrainieren, schnell das Muster von Situationen zu erkennen, in denen die Art und Weise, wie der Algorithmus aktualisiert wird, schädliche Rückkopplungsschleifen zulässt.
Vorurteile in der realen Welt: In diesem Fall würde Ihre Verteilungsanalyse eine Verzerrung zeigen, die sich in einer ähnlich verzerrten Verteilung in externen Benchmarks widerspiegelt (z. B. Ihr Algorithmus zum Screening von Lebensläufen ergibt eine stark auf Männer ausgerichtete Verteilung, die sich in der Verteilung zwischen Männern und Frauen in Ihrem gesamten Unternehmen widerspiegelt).

Wenn Sie eine „harte“ Walnuss buchstäblich mit einer Metallzange knacken müssen, müssen Sie oft verschiedene Winkel ausprobieren, bis die Walnuss der Zange nachgibt. Bei der explorativen Datenanalyse verhält es sich ähnlich: Erwarten Sie nicht, dass Ihre erste Analyse immer das Geheimnis Ihrer Daten preisgibt! Wenn Sie zum Beispiel eine Verzerrung in der realen Welt vermuten, könnten Sie überrascht sein, wenn eine einfache Verteilungsanalyse das Gegenteil ergibt: Marsianer haben vielleicht eine höhere Zulassungsquote an den besten Zeta-Reticulan-Hochschulen als ein Zeta-Reticulan. Dies könnte jedoch auf eine implizite Selbstselektion zurückzuführen sein: Wenn die meisten Marsianer sich gar nicht erst an diesen Hochschulen bewerben, weil sie erwarten, diskriminiert zu werden, sind die wenigen Marsianer, die sich bewerben, wahrscheinlich herausragende Schüler, die vielleicht auch mit Nachdruck angeworben wurden. In diesem Fall kann nur ein Vergleich der Verteilung der Bewerber (im Gegensatz zu den Annahmequoten) zwischen Marsianern und Zeta-Reticulanern mit ihrem Gesamtverhältnis in der Gesellschaft Aufschluss darüber geben, was wirklich vor sich geht.

Und natürlich gibt es noch viele weitere mögliche Techniken, um die Grundursachen zu ermitteln. Dieses Buch soll keine Universität für Datenwissenschaft sein, und Ihr Freund, ein Datenwissenschaftler, wird Ihnen sicherlich sehr hilfreich sein, wenn es darum geht, alternative oder zusätzliche Analysen vorzuschlagen, die Sie durchführen könnten, um einem bestimmten Problem auf den Grund zu gehen. Dies ist auch ein Bereich, der sich ständig weiterentwickelt. Einerseits gibt es immer mehr Software zur Visualisierung von Daten, und man sollte den Wert des Betrachtens von Daten nie unterschätzen (z. B. um Ausreißer oder andere merkwürdige Fälle visuell zu erkennen – bei dieser Aufgabe ist unser Gehirn wirklich am besten, denn dies ist eine wichtige Art und Weise, wie die Natur Bedrohungen erkennt); andererseits hat vor allem das maschinelle Lernen sehr fortschrittliche neue Tools wie die Erkennung von Anomalien ermöglicht, um potenzielle Ursachen für Verzerrungen (oder Probleme im weiteren Sinne) zu erkennen.

Wenn Sie Ihre Ursachenanalyse durchführen, finden Sie manchmal mehrere Hinweise und fragen sich, welche davon wirklich wesentlich sind. Wenn Sie befürchten, dass Unvollkommenheiten eines bestimmten Merkmals zu einer Verzerrung des Ergebnisses führen könnten, aber unsicher sind, ob der Effekt wesentlich ist, können Sie die Wesentlichkeit eines solchen Merkmals beurteilen, indem Sie den Median¹¹ (kontinuierliche Variablen) oder das Median-Äquivalent (kategoriale Variablen)¹² für alle anderen vom Algorithmus verwendeten Variablen eingeben (und so einen synthetischen „typischen“ oder „durchschnittlichen“ Fall schaffen) und dann simulieren, wie stark eine Änderung der fraglichen Variable die Ergebnisse tatsächlich beeinflusst (was durch einen Vergleich der durchschnittlichen Vorhersage oder, für eine ausführlichere Beurteilung, durch eine vergleichende Verteilungsanalyse der Ergebnisse für alternative Wertentscheidungen deutlich würde). Dieser Ansatz ist recht oberflächlich (er lässt z. B. mögliche Interaktionseffekte außer Acht, bei denen die Variable die Ergebnisse nur in einer bestimmten Untergruppe von Fällen beeinflusst, die sich von dem von Ihnen untersuchten „Durchschnittsfall“ unterscheiden kann), aber oft ausreichend.

Wir haben nun den Bogen von der regelmäßigen Überwachung eines Algorithmus durch die Verfolgung einer Handvoll grundlegender Metriken zur Durchführung einer Ursachenanalyse geschlagen, um zu verstehen, warum eine bestimmte Metrik im Überwachungsbericht ein Warnsignal ausgelöst hat. Bislang haben wir uns jedoch implizit auf den einfachsten Kontext konzentriert: relativ einfache Algorithmen, bei denen wir die begrenzte Anzahl von Eingabefaktoren kennen. Leider sind viele Algorithmen des maschinellen Lernens etwas schwieriger zu überwachen. Wir werden daher kurz auf die Besonderheiten dieser Algorithmen eingehen, nämlich einen höheren Grad an Komplexität (weshalb maschinelle Lernalgorithmen oft als „Black Box“ bezeichnet werden) und eine potenziell kontinuierliche, automatische Aktualisierung des Algorithmus selbst.

Überwachung von „Black Box“-Algorithmen

„Blackbox“-Algorithmen sind durch maschinelles Lernen entwickelte Prognosemodelle mit oft Hunderten oder Tausenden von Eingabevariablen, deren Mechanismen zu komplex sind, als dass ein Mensch sie im Detail überprüfen und verstehen könnte. Sie ordnen dennoch jedem Fall eine Schätzung zu, so dass die grundlegende Überwachung wie bei jedem anderen statistischen Modell funktioniert. Die Schwierigkeiten entstehen, wenn Sie versuchen, eine Ursachenanalyse durchzuführen. Dabei werden Sie insbesondere mit drei Herausforderungen konfrontiert:

Sie haben es mit einer viel größeren Anzahl von Faktoren zu tun, die in das Modell einfließen und die jeweils eine durch die Überwachung festgestellte Verzerrung verursacht haben könnten, so dass Sie das Gefühl haben können, nach einer Nadel im Heuhaufen zu suchen.
Der Entwicklungsalgorithmus erledigt automatisch vieles von dem, was der Datenwissenschaftler traditionell manuell erledigt: Ausreißer und fehlende Werte behandeln oder Interaktionseffekte kodieren. Infolgedessen gibt es viel mehr Möglichkeiten, wie ein maschinelles Lernmodell versehentlich eine Verzerrung verursacht haben könnte, aber niemanden, mit dem man den Behandlungsansatz diskutieren und in Frage stellen könnte.
Sie werden es viel schwerer haben, Hypothesen darüber zu entwickeln, was eine Verzerrung verursacht haben könnte, weil Sie weder die Mechanismen des Modells kennen noch Ihr Freund, der Datenwissenschaftler, so gut mit den Daten vertraut ist wie in der Vergangenheit, als er viel mehr manuelle Arbeit leisten musste, um ein Modell zu entwickeln.

Um diese Herausforderungen zu bewältigen, wurde die Entwicklung der sogenannten XAI (explainable artificial intelligence) vorangetrieben. Sie besteht aus drei Elementen:

Ihr Datenwissenschaftler hat möglicherweise Techniken des maschinellen Lernens gewählt, die relativ transparenter sind als andere. Diese Entscheidungen werden in Teil IV erörtert und fallen nicht in den Rahmen dieses Kapitels.
Die global wichtigsten Treiber eines Modells für maschinelles Lernen und die Richtung ihres Einflusses auf die Ergebnisse können durch einen Prozess visualisiert werden, der als Perturbation bezeichnet wird – Ihr Freund, der Datenwissenschaftler, simuliert im Wesentlichen, wie Veränderungen (die durch zufälliges Rauschen erzeugt werden) in den verschiedenen Eingabefaktoren die Ergebnisse des Modells verändern, und sucht dann mechanisch nach den Faktoren, die die größten Veränderungen bewirken.
Die lokal wichtigsten Einflussfaktoren beziehen sich auf einen bestimmten Fall (z. B. einen Bewerber, der durch eine Voreingenommenheit ungerechtfertigt diskriminiert worden zu sein scheint); hier zeigt die Störungsanalyse, welche Faktoren den größten Einfluss auf diesen Fall hatten.

Wenn Ihre grundlegende Überwachung ein Problem mit einem Modell des maschinellen Lernens aufgeworfen hat, besteht der erste Schritt darin, Ihren Datenwissenschaftler um eine Analyse zu bitten, die die global wichtigsten Einflussfaktoren aufzeigt. Es gibt keine feste Regel dafür, wo die Grenze zwischen „wichtig“ und „unwichtig“ zu ziehen ist, aber wenn Sie sich die Idee der Wesentlichkeit vor Augen halten, werden Sie sich wahrscheinlich zunächst auf nicht mehr als 5–12 Variablen konzentrieren. Sie können sich mechanisch vom wichtigsten Einflussfaktor nach unten durcharbeiten, oder Sie können Ihre Fachkompetenz nutzen, um die Faktoren zu priorisieren, bei denen Sie die größte Wahrscheinlichkeit einer Verzerrung sehen.

Entscheidungsbäume – das clevere Werkzeug, das wir in unserem Werkzeugkasten für die Ursachenanalyse gefunden haben – funktionieren auch mit Hunderten oder Tausenden von Modelleingaben. Viele Modelle des maschinellen Lernens sind so genannte Wälder aus Hunderten von Bäumen, aber die Flut an Variablen kann zu komischen Effekten führen, die die Interpretation erschweren. Wenn dies ein Problem darstellt, sollten Sie Ihren Datenwissenschaftler bitten, eine Hauptkomponentenanalyse (PCA) aller Faktoren zu erstellen, eine VARIMAX-Rotation durchzuführen (eine Neuanordnung der Zahlen, die ihre Interpretation erheblich erleichtert) und für jede der Hauptkomponenten die am stärksten korrelierten Variablen zu ermitteln.

Die PCA ist ein kleines Wunderwerk, das erkennt, dass viele Variablen ziemlich korreliert sind (d. h. im Wesentlichen das Gleiche messen). Zum Beispiel können viele Merkmale eines Bewerbers alle das Einkommen darstellen. Ein anderes Bündel von Variablen kann auf Gewissenhaftigkeit hindeuten (die Persönlichkeitseigenschaft, die das Risiko steuert; sehr gewissenhafte Menschen planen im Voraus, sind umsichtig und haben eine ausgezeichnete Impulskontrolle, um sich aus Schwierigkeiten herauszuhalten), und so weiter. Die PCA sieht sich all Ihre Daten an und kommt dann zurück und sagt: „Ich sehe, dass Sie etwa 5000 Faktoren haben; tatsächlich handelt es sich bei den meisten Daten um fünf große Themen, und das erste Thema scheint sich um das Einkommen zu drehen, das zweite Thema um Gewissenhaftigkeit und so weiter“. Und dann können Sie für jedes Thema eine Variable auswählen (z. B. Ihre zuverlässigste Metrik des Einkommens und die beste Metrik, die Sie für Gewissenhaftigkeit haben) und einen Entscheidungsbaum mit dieser sehr kurzen Liste von Variablen erstellen.

Wie Sie vielleicht schon vermutet haben, ist die Durchführung einer PCA in der Praxis etwas schwieriger, als es im vorigen Absatz den Anschein hatte – insbesondere bei fehlenden Werten oder kategorialen Faktoren gibt es einige Herausforderungen zu bewältigen – aber deshalb verbringen Datenwissenschaftler ja auch so viel Zeit an der Universität! Sie müssen mit Ihrem Datenwissenschaftler besprechen, was für einen bestimmten Datensatz praktisch möglich ist, und sich vielleicht mit einer etwas einfacheren Lösung zufrieden geben, aber im Grunde genommen brauchen Sie eine viel kürzere Liste von Faktoren, bei der überflüssige Variablen eliminiert wurden, und sollten diese auch erhalten können. (Leider wird dieser Ansatz nicht in jedem Data-Science-Kurs gelehrt, so dass er für einige Datenwissenschaftler neu sein mag – bleiben Sie bei diesem Thema aam Ball! Ich bespreche ihn ausführlich in Kap. 19.)

Durch diese Analyse hangeln Sie sich zuweilen zu einer Gruppe von Fällen vor, bei denen das Problem zu liegen scheint. Dies ist der Moment, in dem eine Analyse der lokal wichtigsten Faktoren zum Tragen kommen kann. Wenn Ihre Basisüberwachung beispielsweise den Verdacht aufkommen ließ, dass Ihr Kreditantragsmodell bestimmte Marsmenschen diskriminiert, könnte ein Entscheidungsbaum, der in Ihrer anfänglichen Ursachenanalyse die Hotspots unter den manuellen Korrekturen oder Fehlprognosen (insbesondere Ablehnungen von Antragstellern, die im Nachhinein alle ihre Schulden problemlos zurückgezahlt haben) aufspüren sollte, festgestellt haben, dass sie alle in einer Handvoll von Postleitzahlen leben, die als Marsghettos bekannt sind.

In den USA wäre ein solches Redlining illegal. Vielleicht ist es auch in Zeta Reticuli illegal, und Ihr Datenwissenschaftler weist darauf hin, dass die Postleitzahlen dem maschinellen Lernmodell NICHT als Input zur Verfügung gestellt werden! Verwundert bitten Sie um eine Analyse der lokal wichtigsten Fahrer für eine Stichprobe der Marsianer, die in diesen Ghettos leben. Sie stellen fest, dass die meisten der üblichen Risikofaktoren (z. B. das Einkommen und die Kreditauskunft) in der Liste der Variablen, die Sie von Ihrem Datenwissenschaftler erhalten, auffallend wenig enthalten sind. Stattdessen ist der wichtigste Faktor die Entfernung zwischen dem Wohnort des Antragstellers und der nächsten Filiale von Pauls Kartoffelkiste, einer berühmten Kartoffel-Fastfood-Kette, was natürlich das Geheimnis erklärt!¹³

Dieses Beispiel zeigt auch eine große Herausforderung beim maschinellen Lernen, wenn es um Verzerrungen geht: Wenn die Verzerrung bereits in den Daten vorhanden ist, die zum Trainieren des Modells verwendet werden (z. B. weil sie gesellschaftliche Verzerrungen widerspiegeln), wird der Algorithmus für maschinelles Lernen alles daran setzen, Indikatoren für die Verzerrung zu erfassen. Wenn Sie direkte Indikatoren (z. B. die Postleitzahl) entfernen, wird er indirekte Indikatoren finden (z. B. die Entfernung zur nächsten Filiale von Pauls Kartoffelkiste). Wenn Sie die indirekten Indikatoren entfernen, finden Sie noch indirektere Indikatoren (z. B. die Anzahl der Unternehmen mit einem Namen, der mit „P“ beginnt, in der Nähe des Bewerbers). Aus diesem Grund ist es nicht immer möglich, die Verzerrungen aus dem Modell zu entfernen, und wir müssen auch alternative Lösungen in Betracht ziehen (die wir in den folgenden Kapiteln behandeln werden).

Überwachung selbstverbessernder Algorithmen

Da das maschinelle Lernen so schnell ist, hat es eine weitere Innovation im Bereich der Analytik ermöglicht: selbstverbessernde Algorithmen. Traditionell sammelte ein Datenwissenschaftler Daten, lernte die Daten durch verschiedene explorative Analysen kennen und entwickelte dann eine Vorhersageformel durch eine Reihe von Iterationen, bei denen er Merkmale erstellte, Datenprobleme korrigierte und den statistischen Algorithmus durch die Wahl von Variablen und Hyperparametern in eine vernünftige Richtung lenkte. Das maschinelle Lernen kann all dies (mit Ausnahme des „Vernunft“ walten Lassens) automatisch tun – und kann somit jede Woche, jeden Tag oder (möglicherweise) sogar jede Minute eine neue Version eines Modells erstellen.

Die Herausforderung für unsere Aufsicht besteht also darin, dass zu dem Zeitpunkt, an dem wir ein maschinelles Lernmodell analysiert und die Ursache für eine Verzerrung gefunden haben (oder vielleicht auch mit Freude festgestellt haben, dass es keine Verzerrung gibt), die Maschine bereits fünf weitere Versionen des Modells erstellt hat, die nun möglicherweise völlig anders aussehen als das von uns untersuchte Modell. Wie um alles in der Welt (oder in Zeta Reticuli) können wir da mithalten?

Der zusätzliche Schritt, der erforderlich ist, besteht darin, für jede neue Version des Algorithmus eine Überwachung einzurichten, um festzustellen, wann sie sich „wesentlich“ von der letzten Version unterscheidet, die wir geprüft und ausdrücklich zur Verwendung freigegeben haben. Ich stelle mir das wie bei der Einstellung einer Person vor: Wenn wir Bewerber für eine Stelle interviewen, versuchen wir herauszufinden, wie geeignet sie für unsere Arbeit wären; wenn wir eine Köchin einstellen, bitten wir sie vielleicht sogar, ihre Fähigkeiten in unserer Küche zu demonstrieren. Natürlich können sich die Dinge ändern, wenn die Köchin oder der Koch erst einmal bei uns angefangen hat – wir könnten beschließen, Meerschweinchen auf die Speisekarte zu setzen (bekannt als cuy, eine Spezialität der peruanischen Andenregion, obwohl ich Sie warnen muss, dass der kommerzielle Erfolg dieser Menüwahl außerhalb Perus etwas zweifelhaft sein könnte) und feststellen, dass unsere Köchin oder unser Koch nicht gut in der Zubereitung von Meerschweinchen ausgebildet ist, oder unser Koch könnte ein kleines Alkoholproblem entwickeln und unsere Kunden könnten sich beschweren, dass unsere Zabaglione viel schlechter schmeckt, weil der meiste Marsala-Wein im Magen unseres Kochs landet, anstatt in der Zabaglione. Wir müssen daher unser Personal regelmäßig überwachen, und wenn Warnsignale auftreten (z. B. ein Rückgang unserer TripAdvisor-Bewertungen oder torkelnde Köche in unserer Küche), müssen wir dem nachgehen und möglicherweise einen Mitarbeiter beurlauben, bis wir sicher sind, dass die Person keine Gefahr für unser Geschäft darstellt.

Wendet man diesen Gedanken auf das maschinelle Lernen an, sollten selbstverbessernde Modelle daher auch automatisch eine Liste von Metriken erstellen, die den Grad messen, in dem sich eine neue Version eines Modells von der letzten Version des Modells unterscheidet, die wir ausdrücklich getestet und genehmigt haben. Beispielsweise könnte das Programm, das das Modell aktualisiert, Vorhersagen für dieselbe Gruppe von Bewerbern mit dem alten und dem neuen Modell berechnen und den Grad der Abweichung von den Vorhersagen ermitteln – wenn die Änderungen zu dramatisch sind, würde ein Stoppsignal ausgelöst. Oder der Algorithmus könnte die global wichtigsten Prädiktoren ermitteln und sie mit der vorherigen Version vergleichen.

In Kap. 22 werde ich ausführlicher darauf eingehen, wie sich selbst verbessernde Algorithmen für maschinelles Lernen am besten überwachen lassen. Vorerst möchte ich nur betonen, wie wichtig es ist, dass die Geschäftsanwender mit den Datenwissenschaftlern besprechen, wie viel Veränderung sie zu akzeptieren bereit sind (es gibt keinen Königswert – es ist wirklich ein Kompromiss zwischen den geschäftlichen Vorteilen, die sich aus der schnellen Aktualisierung von Entscheidungsalgorithmen ergeben, und der Risikobereitschaft – sehr oft, zum Beispiel bei der Betrugsanalyse, ist Zeit wirklich Geld), und dass die Datenwissenschaftler sicherstellen, dass ein zuverlässiger Mechanismus vorhanden ist, um die Bereitstellung einer selbst aktualisierten Modellversion zu stoppen, wenn sie zu sehr von früheren Versionen abzuweichen scheint, so dass manuelle Offline-Tests abgeschlossen werden sollten, bevor die neue Version in Betrieb genommen werden darf.

Zusammenfassung

In diesem kurzen Kapitel haben wir erörtert, wie Benutzer Algorithmen überwachen können, um Verzerrungen zu erkennen, ohne selbst ein Datenwissenschaftler zu sein. Die wichtigsten Empfehlungen sind:

Ein umfassendes Überwachungssystem sollte sowohl zukunftsorientierte Messgrößen (die berechnet werden können, bevor die vorhergesagten Ergebnisse eingetreten sind) als auch rückblickende Messgrößen (die Vorhersagen mit den tatsächlichen Ergebnissen vergleichen) umfassen.
Zwei sehr nützliche vorausschauende Metriken sind die Verteilungsanalyse und die Analyse manueller Korrekturen.
Zwei sehr nützliche rückblickende Metriken sind die Kalibrierungsanalyse und die Analyse der Trennschärfe.
Verteilungen können durch die Häufigkeit des Eintretens eines binären Ergebnisses, den Durchschnitt eines kontinuierlichen Wertes oder die (prozentuale) Verteilung der Fälle auf verschiedene Kategorien oder Wertebereiche beschrieben werden.
Die Analyse der Fallströme liefert in der Regel wesentlich aussagekräftigere Metriken als der Bestand an Fällen, insbesondere bei Verteilungsanalysen.
Beobachtete Unterschiede in den Verteilungen sollten auf Basis von Signifikanz und Wesentlichkeit gefiltert werden, um Fehlalarme zu vermeiden.
Mit der marginalen Signifikanz kann getestet werden, ob ein bestimmtes Attribut ein Ergebnis beeinflusst, sobald die Unterschiede in allen anderen Attributen eines Falles abgebildet sind, wodurch Fehlalarme weiter reduziert werden.
Wenn es eine menschliche Kontrollinstanz gibt, können Sie vielleicht...
- Vergleichen, ob das absolute Niveau der manuellen Korrekturen im Vergleich zu dem, was Sie für einen funktionierenden Entscheidungsprozess halten, zu hoch oder zu niedrig ist.
- Fallgruppen mit einer besonderen Konzentration von Korrekturen („Hot Spots“) identifizieren.
- Die häufigsten Gründe für manuelle Anpassungen analysieren, um Rückschlüsse auf Verzerrungen (oder andere Unzulänglichkeiten) der Algorithmen zu erhalten.
Die Bewertung der Kalibrierung gibt Aufschluss darüber, ob die Vorhersagen eines Algorithmus im Durchschnitt (und für bestimmte Bereiche, wie z. B. Dezile) richtig oder verzerrt sind.
Die Bewertung der Trennschärfe zeigt, wie leistungsfähig der Algorithmus bei der Unterscheidung von Fällen mit sehr unterschiedlichen erwarteten Ergebnissen ist (und wo eine Verzerrung die Trennschärfe des Algorithmus beeinträchtigt haben könnte).
Während für binäre Ergebnisse der Gini-Koeffizient und die K-S-Statistik sehr elegante und nützliche Messgrößen für die Trennschärfe sind, ist die Bewertung der Trennschärfe für kontinuierliche Ergebnisse schwieriger. Als pragmatische Lösung empfehle ich die Messung eines Multiplikators, der das durchschnittliche Ergebnis des niedrigst- und des höchstrangigen Dezils gemäß dem Algorithmus vergleicht.
Für jede Kennzahl in Ihrem Basis-Überwachungsbericht sollten Sie einen „normalen“ Bereich festlegen, damit Abweichungen, die eine weitere Untersuchung verdienen, automatisch gekennzeichnet werden können. Diese Bereiche können sowohl durch Konfidenzintervalle als auch durch externe Benchmarks bestimmt werden.
Wenn bei einer Kennzahl die Alarmglocken läuten, sollten Sie eine Ursachenanalyse durchführen, um festzustellen, ob es sich um eine Verzerrung handelt.
Eine Ursachenanalyse umfasst häufig auch Verteilungsanalysen von Eingangsvariablen, Entscheidungsbäume zur Identifizierung von Hotspots und Gespräche mit Mitarbeitern an vorderster Front, um besser zu verstehen, was im wirklichen Leben vor sich geht.
Sie werden bei Ihrer Ursachenanalyse am effizientesten sein, wenn Sie Hypothesen darüber entwickeln können, welche Verzerrungen am wahrscheinlichsten sind, und dann Ihre Ursachenanalyse zunächst auf die Prüfung dieser Hypothesen fokussieren.
Mit Hilfe des maschinellen Lernens entwickelte „Black-Box“-Modelle können auf die gleiche Weise überwacht werden wie einfachere Algorithmen, erschweren aber die Ursachenanalyse. Mit einer Technik namens „Perturbation“ können Sie sowohl die global als auch die lokal wichtigsten Treiber solcher Modelle identifizieren, um die Ursachenanalyse zu vereinfachen.
Und wenn beim maschinellen Lernen die Algorithmen automatisch aktualisiert werden, ist es wichtig, auch automatisch zu überwachen, inwieweit sich diese Modelle ändern, und die Implementierung eines neuen Modells auszusetzen, wenn es zu sehr von dem zuletzt validierten und genehmigten Modell abweicht (und damit angesichts der Risikobereitschaft und des Kontexts des Geschäftsinhabers das Risiko einer algorithmischen Verzerrung zu groß ist).

Die Ermittlung der Grundursache kann Aufschluss darüber geben, wie Verzerrungen im Algorithmus beseitigt werden können; allerdings können nicht alle Verzerrungen (insbesondere solche, die in der realen Welt wurzeln) aus einem Algorithmus entfernt werden. Im nächsten Kapitel werden wir Managementstrategien für den Umgang mit algorithmischen Verzerrungen erörtern, und im Anschluss daran werden wir erörtern, wie neue Daten erstellt werden können, die frei von Verzerrungen sind.

Fußnoten

Ron DeLegge II, Gents with No Cents, 2nd edition, Half Full Publishing Group, 2011.

Da es sich hier weder um ein Buch über statistische Hypothesentests noch um einen Teil des Buches handelt, der sich direkt an Statistikprofis richtet, gehe ich absichtlich nicht auf Details ein, z. B. ob ein ein- oder zweiseitiger t-Test verwendet werden soll oder ob ein z-Test besser wäre. Ich verweise die Benutzer an die vertrauenswürdigen Hände ihrer Datenwissenschaftler, wenn es um die Auswahl der besten Variante dieser Tests im Hinblick auf die spezifischen Umstände geht. Die gute Nachricht ist, dass, wenn Sie einen Richtungsanzeiger für ein Problem suchen, alle diese Tests Ihnen zuwinken werden, wenn etwas wirklich verdächtig ist – so wie es beim Geruch von faulen Eiern keinen Unterschied macht, ob Sie durch das linke oder das rechte Nasenloch riechen und ob Sie das Ei einen Zentimeter oder zehn Zentimeter entfernt halten!

Oder lesen Sie J. Cohen, A Power Primer. Quantitative Methods in Psychology, 112(1), 155–159, 1992, für eine exzellente Anleitung zu Stichprobengrößen.

Das liegt daran, dass der neurotische Aspekt der Variable – die Alarmglocken zu läuten, obwohl der Kunde eigentlich völlig in Ordnung war – ihre Vorhersagekraft gemindert hat.

Der Basler Ausschuss für Bankenaufsicht hat in seinem Arbeitspapier Nr. 14 (Mai 2005) mit dem Titel „Studies on the Validation of Internal Rating Systems“ einen sehr umfassenden Überblick über gängige und weniger bekannte Messgrößen zur Beurteilung der Fähigkeit von Algorithmen, Rangfolgen zu bestimmen, veröffentlicht. Darin werden auch Gini und K-S als besonders nützlich hervorgehoben.

Ist Ihnen aufgefallen, dass der Durchschnitt des Dezils mit den größten Vorhersagen größer ist als die größte Einzelvorhersage des Algorithmus? Gut gemacht! Das passiert insbesondere bei Ausreißern – es sieht so aus, als ob unser Gorillamann korrekt in das oberste Dezil aufgenommen wurde, aber auf absoluter Ebene hat der Algorithmus die Anzahl der Haare immer noch stark unterschätzt und das pelzige Tier wie einen Menschen behandelt. Dies ist ein häufiges Phänomen.

Es ist äußerst unwahrscheinlich, dass Sie in jedem Dezil genau das gleiche Verhältnis (d. h. 2,7: 1) feststellen werden. Dafür gibt es zwei Gründe. Erstens sind die Quoten zwischen 0 % und 100 % begrenzt, was bedeutet, dass sich eine Ausfallrate von 50 % oder mehr technisch gesehen niemals verdoppeln kann. (Was sich tatsächlich verdoppelt, ist das Verhältnis der Wahrscheinlichkeiten (sog. „odds ratio“, das eine unbegrenzte Transformation der Raten ist). Zweitens haben die makroökonomischen Kräfte, auf die ich in diesem Beispiel anspiele, empirisch gesehen nur begrenzte Auswirkungen auf sehr sichere Kreditnehmer, die daher weniger Schwankungen über den Konjunkturzyklus hinweg aufweisen als riskantere Kreditnehmer. Steigt die Insolvenzquote um einen bestimmten Faktor, so ist der relative Anstieg der Ausfallraten bei sehr sicheren und sehr risikoreichen Kunden in der Regel geringer als bei Kunden mit einem mittleren Risikoniveau.

In Kap. 3 wurde die Strukturform einer linearen Regression zur Schätzung kontinuierlicher Variablen vorgestellt. Für binäre Ergebnisse ist die äquivalente Strukturform eine logistische Regression, die ebenfalls einen konstanten Term enthält. Wenn der Algorithmus eine kompliziertere Struktur hat, verfügt er möglicherweise nicht über einen so explizit sichtbaren konstanten Term, aber wenn Sie den Schätzwert, den Ihnen der Algorithmus liefert, in einen Logit-Score umwandeln und dann eine logistische Funktion darum herum legen, können Sie eine virtuelle Anpassung des „impliziten“ konstanten Terms vornehmen.

Nehmen wir an, dass in Ihrem Referenzdatensatz 50 % der Bevölkerung weiblich sind, aber nur 20 % der von Ihrem Lebenslauf-Screening-Algorithmus zugelassenen Bewerber Frauen sind. Wie wir bereits besprochen haben, hängt es auch von der absoluten Zahl der vom Algorithmus im betrachteten Zeitraum zugelassenen Bewerber ab, ob 20 % im Vergleich zu 50 % ein signifikanter Unterschied ist. Diese pragmatische Alternative zu einem t-Test berücksichtigt nicht die tatsächliche Zahl der Fälle, sondern geht einfach von einer Annahme aus – zum Beispiel, dass Sie in jedem Quartal mindestens 100 Bewerber prüfen und daher 20 % ein signifikantes Problem darstellen würden.

Der PSI ist tatsächlich proportional zum Chi-Quadrat, wie Bilal Yurdakul in seiner Dissertation „Statistical Properties of Population Stability Index“ (2018) gezeigt hat.

Der Median ist dem Durchschnitt ähnlich, mit dem Unterschied, dass er der tatsächliche Wert eines Falles ist, bei dem 50 % der Stichprobe niedriger und 50 % höher sind (der Fall liegt also „in der Mitte“). Nehmen wir an, Sie befinden sich in einem Land, in dem 33 Millionen Menschen jeweils 1000 Dollar pro Monat verdienen, 33 Millionen Menschen 2000 Dollar, 33 Millionen Menschen 3000 Dollar und 100 Tycoons jeweils 1 Milliarde Dollar pro Monat. Das Durchschnittseinkommen in diesem Land beträgt 3010 $, der Median aber nur 2000 $ – der Median ist also ein viel besserer Indikator für das „typische“ Einkommen und das Durchschnittseinkommen „normaler“ Menschen.

Während es bei kontinuierlichen Variablen (z. B. Einkommen) einfach ist, den Durchschnitt oder Median zu berechnen, ist dies bei kategorialen Variablen unmöglich (z. B. Beruf – Sie würden natürlich nie sagen, dass ein Finanzbeamter der Durchschnitt aus einem Buchhalter und einem Räuber ist). Außerdem ist der „Modus“ (d. h. die häufigste Kategorie) oft ein schlechter Näherungswert für den Durchschnitt, da die häufigste Kategorie oft am unteren Ende liegt (z. B. sind die häufigsten Jobs oft relativ schlecht bezahlt). Ein besserer Ansatz besteht darin, die Kategorien nach ihrem Medianergebnis zu sortieren (z. B. das Medianeinkommen der einzelnen Berufskategorien), dann das „Medianeinkommen“ zu ermitteln und nachzuschauen, welche Kategorie (d. h. welcher Beruf) dem Median der Bevölkerung am nächsten kommt (z. B. Computerprogrammierer).

Sie wissen sicher, dass die Lieblingsspeise der Marsmenschen Kartoffeln sind – daher hat Pauls Kartoffelkiste natürlich die meisten seiner Filialen in Gebieten mit überwiegend marsianischer Bevölkerung, und die fünf von Ihnen identifizierten Marsghettos machen satte 60 % aller Filialen von Pauls Kartoffelkiste aus. Diese Entfernungsvariable bietet dem Algorithmus also eine Hintertür für das Redlining.