Im letzten Kapitel haben wir die schlimmstmögliche Situation betrachtet – Vorurteile, die sich so tief in der Realität verankert haben, dass es unmöglich ist, Daten zu sammeln, um sie zu widerlegen. Sehr oft sind die Daten, die erforderlich sind, um Vorurteile aus dem Algorithmus herauszuhalten, jedoch sehr wohl vorhanden, aber irgendwie lässt der Datenwissenschaftler dennoch ein Vorurteil durch. In diesem Kapitel wird diese Ursache für algorithmische Voreingenommenheit näher beleuchtet.
Bestätigungsfehler (sog. „confirmation bias“), durch den das Modell so konstruiert wird, dass es ein Vorurteil des Datenwissenschaftlers zwangsläufig repliziert;
Mentale Müdigkeit (sog. „ego depletion“), die den Datenwissenschaftler davon ablenkt, Vorurteile zu vermeiden; und
Übermäßiges Selbstvertrauen (Lake-Wobegon-Effekt), das den Datenwissenschaftler dazu veranlasst, Signale zu ignorieren, die auf eine mögliche Verzerrung des Modells hinweisen.
Bestätigungsvoreingenommenheit („confirmation bias“)
Es ist eine weit verbreitete Weisheit, dass man fragen muss, wenn man etwas wissen will – und so kann es auch bei Daten sein. Wenn Sie eine starke Hypothese haben und Ihre Daten nicht nach Alternativen befragen, erfahren Sie von diesen möglicherweise auch nichts. Modelldesign und Stichprobendefinition (die ersten beiden Schritte im Entwicklungsprozess) können dazu führen, dass ein Datenwissenschaftler einen fundamentalen Bestätigungsfehler begeht, indem er Daten von der Modellierung ausschließt, die eine andere Geschichte erzählen würden.
Untersuchen wir zunächst, wie Bestätigungsfehler das Modelldesign beeinträchtigen können, und wenden wir uns dann der Definition von Stichproben zu.
Bestätigungsfehler im Modelldesign
Das Modelldesign definiert, was das Modell auf Basis welcher Daten vorhersagen soll. Mit anderen Worten: Sie entscheiden, welche Frage Sie dem Algorithmus stellen. Wenn Sie eine voreingenommene Frage stellen, werden Sie zwangsläufig eine voreingenommene Antwort erhalten!
Ein wichtiger Aspekt der Modellentwicklung ist die abhängige Variable – wie definiert man eigentlich gut und schlecht? Ich habe einmal für eine chinesische Bank gearbeitet, die ein Standardproblem lösen wollte: Sie wollte ein verlustbringendes Kreditkartenportfolio durch die Einführung eines besseren Kreditbewertungsmodells sanieren. Ihre Hypothese lautete, dass risikoreiche Kunden Geld verlieren, während sichere Kunden Gewinne erwirtschaften; sie bat mich daher, einen Risikoscore zu entwickeln, um risikoreiche von sicheren Kunden zu unterscheiden.
Das Modell erfüllte die gestellte Aufgabe sehr gut – es war so gut darin, gute von schlechten Kunden zu unterscheiden, dass es die Zahl der Zahlungsausfälle um mehr als die Hälfte reduzieren konnte, während es weniger als 10 % der guten Kunden verlor. Als wir jedoch den mit dem neuen Modell erzielten Gewinn analysierten, erlebten wir eine Überraschung: Das Portfolio verlor immer noch Geld. Es stellte sich heraus, dass die ursprünglich gestellte Frage („Sagen Sie uns, welche Antragsteller ein hohes Risiko haben“) eine Voreingenommenheit gegenüber risikoreichen Kunden darstellte. In Wirklichkeit waren einige der risikoreichen Kunden hochprofitabel, da sie nicht nur ein beträchtliches Ausfallrisiko hatten, sondern auch eine Menge Zinsen und Gebühren an die Bank zahlten – genug, um nicht nur die erwarteten Verluste zu decken, sondern auch einen ordentlichen Gewinn zu erzielen.
Andererseits verlor die Bank mit vielen sicheren Kunden viel Geld. Das lag daran, dass viele „sichere“ Kunden einfach deshalb sicher waren, weil sie ihre Karte nie benutzt hatten – aufdringliche, provisionshungrige Verkäufer hatten viele Menschen dazu überredet, eine Kreditkarte zu beantragen, die sie eigentlich gar nicht wollten oder benutzten. Diese Karten brachten der Bank keinerlei Einnahmen, verursachten aber dennoch hohe Verkaufsprovisionen und erhebliche Betriebskosten.
Deshalb haben wir beschlossen, dem Algorithmus eine andere Frage zu stellen: „Wie viel Geld werde ich mit diesem Bewerber verdienen?“ Dies war eine komplizierte Frage, die wir in zwei Teilfragen aufteilten: Ein Algorithmus schätzte den Kreditverlust, während ein zweiter Algorithmus die Einnahmen mit dem Kunden schätzte. Die verlustbringenden Kunden umfassten zwei Untergruppen: Kunden mit geringen Chancen auf Einnahmen (von denen viele sehr „sicher“ aussahen) und extrem risikoreiche Kunden, deren Kreditverluste alle Einnahmen übersteigen würden, die wir mit ihnen erzielen könnten. Im Gegensatz dazu wiesen die profitablen Kunden eher ein mittleres Risiko auf, da diese Kunden begeisterte Nutzer von Kreditkarten waren und daher für die Bank beträchtliche Einnahmen generierten, die ausreichten, um die Verluste derjenigen zu decken, die ihre Schulden nicht beglichen.
Es stellt sich heraus, dass viele Unternehmen nur teilweise wissen, woher genau ihre Gewinne kommen. Die Frage „Was ist gut?“ klingt philosophisch, ist aber tatsächlich von zentraler Bedeutung für einen Algorithmus, der darauf abzielt, Bewerber als „gut“ oder „schlecht“ einzustufen oder ihnen eine Wahrscheinlichkeit für „gut“ zuzuordnen. Wenn Datenwissenschaftler bei der Definition von „gut“ und „schlecht“ ihren Vorurteilen folgen, werden sie diese Vorurteile zwangsläufig in ihrem Algorithmus reproduzieren. Der gleiche Punkt kann mit der Suchoptimierung veranschaulicht werden. Hier können Algorithmen darauf trainiert werden, die Anzahl der Klicks zu optimieren, obwohl eine geringere Anzahl von Klicks mit höherer Qualität (z. B. von Kunden, die viel Geld für eine Marke oder Produktkategorie ausgeben werden) viel bessere Geschäftsergebnisse ermöglichen könnte.
Auch Benutzer und Unternehmensleiter im Allgemeinen tappen leicht in diese Falle. Menschen neigen stark dazu, komplexe Sachverhalte (z. B. ob eine Person ein guter Mitarbeiter, Ehepartner oder Berater wäre) mit einem einfachen Maßstab zu beurteilen (z. B. ob die Person einen Harvard-Abschluss hat). Je komplexer ein Thema ist, desto größer ist die Wahrscheinlichkeit, dass alle Beteiligten eine gründliche Diskussion und intellektuelle Durchdringung des Themas scheuen. Dieser als Parkinsons Gesetz der Trivialität oder Fahrradschuppen-Effekt bekannte Effekt wurde von Cyril Northcote Parkinson treffend anhand eines Finanzausschusses veranschaulicht, der in 2½ Minuten eine Mega-Investition in ein Kernkraftwerk genehmigte und anschließend eine lange und lebhafte Diskussion über einen neuen Fahrradschuppen führte.1 Diese Voreingenommenheit verdeutlicht, wie stark der Hang der Natur zur Effizienz die Art und Weise beeinflusst, wie wir Entscheidungen treffen. Wenn Sie an eine sehr komplexe, große Entscheidung denken, die Sie demnächst treffen müssen (oder die Sie bisher kunstvoll vermieden haben), verspüren Sie wahrscheinlich sofort eine Welle des Widerwillens, sie anzupacken, weil der Denkprozess so mühsam ist – was einfach nur die Natur ist, die Ihnen sagt, dass Sie dabei eine Menge Energie verbrauchen werden und vielleicht versuchen sollten, ohne diesen Schritt auszukommen. Im Grunde ist es derselbe Reflex, wie eine Abkürzung durch eine Wiese zu nehmen, wenn der offizielle Fußgängerweg einen großen Umweg bedeuten würde.
Die andere Dimension des Bestätigungsfehlers beim Modellentwurf ist die Auswahl der erklärenden Daten. Die meisten Sünden in diesem Bereich sind Unterlassungssünden – wenn ein Datenwissenschaftler gegenüber einer bestimmten Gruppe von Prädiktoren voreingenommen ist, ist es wahrscheinlicher, dass er alternative Prädiktoren in der Stichprobe ausschließt und somit seine Voreingenommenheit nie in Frage stellen kann.
Nehmen wir zum Beispiel einen Algorithmus zum Screening von Lebensläufen, mit dem automatisch die vielversprechendsten Kandidaten für eine neue Stelle im Data-Science-Team ermittelt werden sollen. Es ist eine weit verbreitete Meinung, dass ein Abschluss an einer Ivy-League-Universität ein guter Prädiktor für die berufliche Leistung ist. Was aber, wenn diese Vorliebe für Ivy-League-Universitäten falsch ist?
Nehmen wir zur Veranschaulichung an, dass ein anderer Faktor den Unterschied in der durchschnittlichen beruflichen Leistung zwischen Ivy-League-Studenten und anderen erklärt, nämlich ob der Student in der High School Latein gelernt hat oder nicht. Aufgrund des Bestätigungsfehlers kommt der Datenwissenschaftler vielleicht gar nicht auf die Idee, diese Information zu erheben. Ohne in der Datenbank vermerkte Lateinkenntnisse hat der Algorithmus keine Chance, darauf hinzuweisen, dass Latein ein wichtiger Faktor für die berufliche Leistung ist. Wenn ein Modell falsch spezifiziert ist (d. h. die richtigen Prädiktoren fehlen), versucht der statistische Algorithmus, die beste Vorhersage mit dem zu finden, was zur Verfügung steht – und verwendet dafür normalerweise Variablen, die mit den fehlenden Merkmalen korreliert sind. In unserem Beispiel könnten wir davon ausgehen, dass nur wenige Kinder Latein lernen; Lateinkenntnisse könnten darauf hindeuten, dass die Eltern überdurchschnittliche Anstrengungen unternommen haben, um ihren Kindern die bestmögliche Bildung zukommen zu lassen, und dass sie sowohl über gute sprachliche als auch analytische Fähigkeiten verfügen (d. h., dass sowohl die rechte als auch die linke Gehirnhälfte begabt sind). All diese Attribute erhöhen natürlich auch die Wahrscheinlichkeit, dass das Kind eine Ivy-League-Universität besucht; daher wird das Ranking der Universität zu einem Indikator für Lateinkenntnisse.
Das Ergebnis ist ein voreingenommener Algorithmus – er wird Bewerber von einer Ivy-League-Schule bevorzugen, selbst wenn sie nicht einmal wissen, was Latein ist, während er Bewerber von weniger renommierten Schulen ablehnen kann, selbst wenn sie Latein so gut kennen, dass sie Vergil-Gedichte aus dem Stegreif übersetzen können.
Meiner Erfahrung nach schränken Bestätigungsfehler das Spektrum der von Datenwissenschaftlern berücksichtigten Daten oft drastisch ein. Bei der Kreditwürdigkeitsprüfung zum Beispiel hat die Voreingenommenheit gegenüber dem Status quo zu einer übermäßigen Konzentration auf einige wenige „Lehrbuch“-Datenquellen wie Kreditbüros geführt. Die sog. „soziale Voreingenommenheit“ (Vorurteile, denen wir aufgrund eines tatsächlichen oder angenommenen Gruppenzwangs und der sich daraus ableitenden Angst vor Ausgrenzung folgen) hält Datenwissenschaftler davon ab, unkonventionelle Datenquellen vorzuschlagen, obwohl manchmal geradezu lustige Variablen viel aussagekräftiger wären. In Taiwan beispielsweise verwenden viele Algorithmen immer noch ausgiebig Finanzkennzahlen, um das Kreditrisiko von Unternehmen zu bewerten, obwohl Banker Ihnen insgeheim sagen würden, dass sie einem Kunden, der nicht weiß, wie man eine Bilanz (eine ziemlich fiktive Angelegenheit) für die Bank hübsch aussehen lässt, erst recht kein Geld leihen würden (da es einem solchen Kunden offensichtlich an grundlegenden Geschäftskenntnissen mangelt). Als ein taiwanesischer Kundenbetreuer einem Team von Datenwissenschaftlern vorschlug, er könne die Qualität eines Kreditnehmers anhand einer Runde Golf beurteilen, wurde er ausgelacht – obwohl er eine großartige Erkenntnis gewonnen hatte: Die Beobachtung des Kunden beim Schummeln während des Golfspiels war ein hervorragender Prädiktor dafür, dass der Kunde auch bei seinen Geschäften unzuverlässig sein würde und daher ein hohes Ausfallrisiko hätte.
Bestätigungsfehler bei Stichproben
Eine wichtige Ursache für algorithmische Verzerrungen ist die Wahl eines zu kurzen Zeitraums für die Stichprobe. Es ist beispielsweise eine Stabilitätsverzerrung, wenn man davon ausgeht, dass das vergangene Jahr repräsentativ für die Zukunft ist. Das Testen eines Algorithmus über mehrere Jahre hinweg – im Falle einer Kreditwürdigkeit beispielsweise über Zeiträume, in denen die Wirtschaft wächst, und über Zeiträume, in denen eine Rezession herrscht – ermöglicht es dem statistischen Prozess, die Hypothesen des Datenwissenschaftlers besser zu testen und Verzerrungen aufzudecken.
Ich erinnere mich an eine Situation, die diesen Fallstrick gut veranschaulicht. Vor der globalen Finanzkrise von 2007 hatte jemand einen Algorithmus zur Kreditwürdigkeitsprüfung für Hypotheken entwickelt, der die jüngsten Hauspreissteigerungen in der Region als Input verwendete – eine grundsätzlich vernünftige Hypothese und sinnvolle Variable. Der Datenwissenschaftler, der das Modell erstellte, war jedoch der Meinung, dass die Hauspreise immer steigen werden – ein gutes Beispiel für eine Verfügbarkeitsheuristik, die einen jungen Datenwissenschaftler betreffen kann, der nie empirisch sinkende Hauspreise beobachtet hat. Aufgrund dieser Voreingenommenheit wandte der Datenwissenschaftler eine mathematische Transformation auf die Veränderung der Hauspreise an, die bei negativen (d. h. fallenden) Hauspreisen mathematisch überhaupt nicht anwendbar war. Je nach den bei der Implementierung getroffenen technischen Entscheidungen würde ein solches Modell entweder einen Fehler auslösen (was eine Warnung zur Folge hätte) oder bei fallenden Hauspreisen von stagnierenden Hauspreisen (oder möglicherweise sogar einem positiven Wachstum) ausgehen. Mit anderen Worten, der Algorithmus könnte am Ende „annehmen“, dass die Hauspreise nicht fallen, selbst wenn Beweise für das Gegenteil in die Gleichung eingespeist wurden! Die anfängliche Voreingenommenheit des Datenwissenschaftlers hat also zu einem Algorithmus mit einer verzerrten, selektiven Wahrnehmung der Realität geführt, so wie Sie in der Einleitung beobachtet haben, dass Bestätigungsfehler eine selektive Wahrnehmung in der menschlichen Kommunikation verursachen.
Ich sollte anmerken, dass dies nicht so sein muss. Die Gesetze der Physik sind Beispiele für gut konzipierte Algorithmen, die oft auf Dimensionen ausgedehnt werden können, die während ihrer Entwicklung nicht empirisch beobachtet wurden. So können Raketenwissenschaftler beispielsweise Formeln verwenden, die auf der Grundlage von Experimenten auf der Erde entwickelt wurden, um die Flugbahnen von Raketen in die Erdumlaufbahn und sogar zu anderen Planeten wie dem Mond und dem Mars korrekt zu berechnen. Wie Sie jedoch in einem späteren Kapitel sehen werden, erfordert die Entwicklung eines Algorithmus, der auch außerhalb des Bereichs der für seine Eingabevariablen in der Stichprobe beobachteten Werte gut funktioniert, in der Regel besondere Sorgfalt und Mühe seitens des Datenwissenschaftlers.
Die Stichprobe kann auf viele andere Arten verzerrt sein. Ein Beispiel ist die Beschränkung auf einen relativ kurzen Zeitraum, der nur für eine bestimmte Phase des Konjunkturzyklus repräsentativ ist; ein weiteres Beispiel ist die Konzentration auf ein bestimmtes Bevölkerungssegment. Verfügbarkeitsverzerrungen können hier verheerend sein. Sie haben wahrscheinlich gehört, dass harte Drogen süchtig machen. Dieser Glaube stützt sich auf Berge von akademischer Forschung. Wie groß war dann die Überraschung, als Forscher eine Längsschnittstudie durchführten, bei der sie die Teilnehmer über mehrere Jahrzehnte hinweg verfolgten – und feststellten, dass die meisten Drogenkonsumenten irgendwann aufhörten, Drogen zu nehmen, einfach weil sie sich dazu entschlossen hatten (z. B. weil sie einen Job annehmen oder heiraten oder ein Kind großziehen wollten)!2 Wie kann das sein?
Es stellte sich heraus, dass die meisten Forschungsarbeiten über Drogenabhängige mit der Population durchgeführt wurden, die den Psychologen am leichtesten zugänglich ist – der klinischen Population der Drogenabhängigen, die nicht in der Lage sind, sich aus eigenem Antrieb von ihrer Sucht zu befreien, und deshalb psychiatrische oder medizinische Hilfe in Anspruch nehmen. Es stellte sich heraus, dass aufgrund der Verfügbarkeitsverzerrung ein Großteil der Forschung über Drogenabhängigkeit an einer winzigen Untergruppe von Drogenabhängigen durchgeführt worden war, was zu einer sehr verzerrten Wahrnehmung des Problems führte.
Ein großer Feind bei der Modellentwicklung ist daher der Bestätigungsfehler. Im folgenden Abschnitt werden Sie sehen, wie ein zeitabhängiger Effekt, die so genannte Ego-Depletion, Bestätigungsfehler und andere Verzerrungen verschlimmern kann.
Ego-Depletion
Wenn sie von Vorurteilen von Datenwissenschaftlern im Allgemeinen hören, stimmen die meisten Datenwissenschaftler bereitwillig zu, dass sie beobachtet haben, dass andere Datenwissenschaftler tatsächlich ständig unter diesen Vorurteilen leiden. Gleichzeitig neigen sie dazu zu glauben, dass sie selbst nicht unter diesen Vorurteilen leiden. Natürlich spielt auch Selbstüberschätzung eine Rolle, aber oft können sie Beispiele anführen, die „beweisen“, dass sie Maßnahmen ergriffen haben, um die hier beschriebenen Fallstricke zu vermeiden. Man könnte dies damit erklären, dass der Verfügbarkeitsbias dem Confirmation Bias zu Hilfe kommt (es ist einfacher, sich an eine Situation zu erinnern, in der man eine neue Datenquelle eingeführt hat, die dem Algorithmus einen großen Auftrieb gegeben hat, obwohl sich die Chefin über einen lustig gemacht hat, als man diese Datenquelle zum ersten Mal erwähnt hat, als sich an eine Situation zu erinnern, in der man keine neue Datenquelle eingeführt hat).
Oft geht jedoch etwas viel Subtileres und Bösartigeres vor sich: Unser Gehirn ist kein mechanischer Roboter, sondern eine dynamische Maschine. Wenn wir mit einer komplexen, kognitiv anspruchsvollen Aufgabe wie der Entwicklung eines Algorithmus beginnen, neigen wir dazu, ihr unsere volle Aufmerksamkeit zu schenken. Sobald wir 30–60 Minuten mit der Aufgabe beschäftigt sind, setzt mentale Erschöpfung ein – unser Geist beginnt zu ermüden. Dieser Effekt hat seinen Ursprung in der Genügsamkeit der Natur – weil unser bewusstes, logisches Denken so viel Energie verbraucht (es macht 20 % oder mehr unseres gesamten Kalorienverbrauchs aus), will Mutter Natur nicht, dass wir unsere gesamte geistige Energie für eine einzige Aufgabe verbrauchen. Unsere Vorfahren waren besser dran, wenn sie ihre Aufmerksamkeit abwechselnd auf die Jagd nach Nahrung, die Partnersuche, die Abwehr von Feinden und den Schutz vor den Naturgewalten richteten. Genauso wie der Bildschirm Ihres Mobiltelefons nach kurzer Zeit, in der Sie immer das gleiche Bild sehen, in den Energiesparmodus wechselt und etwas dunkler wird, wird die sog. Ego-Depletion allmählich Ihren Verstand schwächen – Ihr Gehirn wird anfangen, Abkürzungen zu nehmen.
Dem Gehirn stehen viele Abkürzungen zur Verfügung; insbesondere überspringt es Gelegenheiten, widersprüchliche Informationen abzurufen (Confirmation Bias) und verwendet eine leicht abrufbare Messgröße als Ersatz für schwieriger zu bewertende Messgrößen (Ankereffekt). Sehr oft wird das Gehirn zu der „Standardentscheidung“ tendieren, die sich anbietet.
Das Verhalten von Autokäufern kann dies veranschaulichen. In einigen Ländern, z. B. in Deutschland, können die Käufer eines Neuwagens Dutzende von Eigenschaften individuell auswählen. Zu Beginn des Konfigurationsprozesses quälen sie sich mit der Farbe des Autos, dem Stoff der Sitze und den winzigen Optionen, die ihnen für die ersten paar Punkte zur Verfügung stehen. Je weiter sie jedoch kommen, desto mehr setzt Entscheidungsmüdigkeit ein (die spezifische Art von Ego-Depletion, die durch Entscheidungsfindung ausgelöst wird) – und desto wahrscheinlicher ist es, dass sie sich für die vom Autokonzern vorgeschlagene Standardoption entscheiden.
Auch wenn Fachleute komplexe Bewertungen als Grundlage für Entscheidungen vornehmen, haben sie oft eine „Standardentscheidung“ wie die „sicherste“ Option, wenn es um Risiken geht. Detaillierte statistische Analysen der Entscheidungsqualität können dies aufzeigen. Als ich beispielsweise die Entscheidungen von Kreditsachbearbeitern für ein Portfolio von Krediten an Kleinunternehmer analysierte, stellte ich fest, dass die Bewilligungsquote ansonsten identischer Anträge zwischen dem Beginn einer Arbeitsperiode (morgens oder direkt nach dem Mittagessen) und dem Ende der Arbeitsperiode (wenn der Kreditsachbearbeiter eine Mittagspause einlegte oder nach Hause ging) um 4 Prozentpunkte sank. Es wurde bei fortschreitender Arbeitszeit ebenso festgestellt, dass Ärzte häufiger unnötige Antibiotika verschreiben,3 dass Richter Bewährungsanträge von Häftlingen häufiger ablehnen,4 und dass Ermittler häufiger zu dem Schluss kommen, dass ein am Tatort gefundener Fingerabdruck nicht mit dem des Verdächtigen übereinstimmt.5
Auch Datenwissenschaftler müssen oft eine große Anzahl von Entscheidungen treffen. Bei der Modellentwicklung müssen sie oft Dutzende von Verzeichnissen mit Tausenden von Datenfeldern durchforsten und entscheiden, welche Felder sie erfassen wollen, weil sie aus betrieblichen oder wirtschaftlichen Gründen (Kosten) nicht alle Datenfelder erhalten können. Während sie sich natürlich über das erste Dutzend Felder den Kopf zerbrechen, werden sie bald feststellen, dass sie die Entscheidung über Aufnahme/Ablehnung intuitiv in Sekundenbruchteilen treffen. Auch wenn sie glauben, dass sie dies aufgrund ihrer großen Erfahrung und ihrer intimen Kenntnis hunderter ähnlicher Algorithmen können (Selbstüberschätzung), wird ihr Unterbewusstsein einfach die Verankerung aktivieren und die Felder nach einer winzigen Liste von zwei oder drei Meta-Attributen durchsuchen. Wenn Sie sich schon einmal dabei ertappt haben, dass Sie eine ganze Reihe von Feldern ein- oder ausgeschlossen haben, nur um dann zu denken: „Moment mal, das macht doch keinen Sinn, warum schließe ich das nicht aus/ein?“, dann ist das wahrscheinlich ein Fall, in dem Ihr bewusster Verstand das Unterbewusstsein dabei erwischt hat, wie es zu viele Abkürzungen macht.
Die Geschichte wiederholt sich in der Datenaufbereitung. Die Überprüfung der deskriptiven Statistiken der einzelnen Variablen auf Anzeichen von Datenqualitätsproblemen, die Behandlung von Ausreißern und fehlenden Werten („missing values“) sowie die Entscheidung über Transformationen gehen schnell von außergewöhnlicher Sorgfalt zu sehr schablonenhaften, intuitiven Entscheidungen über.
Und bei der Modellschätzung wird die Erschöpfung des Egos die Datenwissenschaftler dazu verleiten, sich an die Standardwerte zu halten, die das von ihnen verwendete Skript oder die Richtlinien ihres Unternehmens für Hyperparameter vorsehen.
So kann es vorkommen, dass eine bestimmte Verzerrung eines Algorithmus dadurch entsteht, dass ein ansonsten exzellenter Datenwissenschaftler den Keim für die Verzerrung in einem Moment geistiger Ermüdung durchgehen lässt. Leider ist dieser Effekt nicht allgemein anerkannt oder akzeptiert. Wenigstens sind Autos und Lastwagen inzwischen mit einer Technologie ausgestattet, die die Müdigkeit des Fahrers erkennt; vielleicht werden Laptops irgendwann in der Zukunft ihre hirnüberlasteten Benutzer dazu ermutigen, eine Pause im Park einzulegen, wenn sie Anzeichen für Ego-Depletion feststellen.
Selbstüberschätzung
Ich habe bereits gezeigt, wie statistische Verfahren im Allgemeinen und das Konzept der Signifikanz im Besonderen dazu beitragen können, Verzerrungen zu beseitigen – aber nur, wenn sie beachtet werden. Selbstüberschätzung führt dazu, dass solche Warnzeichen leider oft ignoriert werden. Es gibt einen Cartoon von Randall Munroe6 über eine empirische Studie, in der getestet wird, ob eine von 20 verschiedenen Farben von Geleebohnen eine signifikante Auswirkung auf Akne hat: Die ersten 19 Geschmacksrichtungen sind alle bei einem Konfidenzniveau von 95 % nicht signifikant, aber Bingo, die zwanzigste Geschmacksrichtung meistert die Hürde des statistischen Tests. Bedeutet dies wirklich, dass der Verzehr von grünen Geleebohnen Akne verursacht? Wie Sie sich vielleicht erinnern, bedeutet ein Konfidenzniveau von 95 %, dass die Wahrscheinlichkeit, dass ein unbedeutendes Attribut signifikant ist, 1:20 beträgt; wenn also die Hypothese gilt, dass keine der Farben irgendeinen Einfluss auf Akne hat, sollten wir erwarten, dass genau eine der 20 den Test besteht.
Der größte Komplize der Selbstüberschätzung ist das menschliche Bedürfnis nach Beständigkeit: Der menschliche Verstand ändert nicht gern seine Überzeugungen, vermutlich weil die ständige Neubewertung bereits getroffener Entscheidungen viel geistige Energie vergeuden würde. Wenn wir mit Beweisen konfrontiert werden, die unsere Überzeugungen in Frage stellen, fallen uns oft eher Gründe ein, warum der Warnindikator höchstwahrscheinlich fehlerhaft ist („Oh, die Validierungsstichprobe ist verzerrt/zu klein/zu frisch/zu alt.“), als dass wir akzeptieren, dass wir die ganze Zeit falsch lagen.
Eine starke Ausprägung dieser Voreingenommenheit ist das Verhalten, das ich gerne als „die Daten foltern, bis sie gestehen“ bezeichne. Wenn ein anfänglicher Satz von Merkmalen kein gutes Vorhersagemodell ergibt, neigen manche Datenwissenschaftler eher dazu, die Modellschätzung zu optimieren („Versuchen wir eine andere Modellierungstechnik“) oder zusätzliche Transformationen derselben Rohdaten zu erstellen, als grundlegend zu überprüfen, ob die abhängige Variable (konzeptionell oder rechnerisch) fehlerhaft ist oder die Hypothesen über die tatsächlichen Ursachen der Ergebnisse falsch sind.
Viele Datenwissenschaftler werden sich natürlich bemühen, eine solche Selbstüberschätzung zu vermeiden und jedes Anzeichen dafür, dass etwas nicht in Ordnung ist, gewissenhaft zu untersuchen. Aber auch sie könnten von einer schwächeren Ausprägung der Selbstüberschätzung betroffen sein: Sie verwechseln das Fehlen von Warnzeichen mit dem Fehlen jeglicher Probleme. Infolgedessen wird ein Algorithmus, der auf den ersten Blick genau richtig aussieht (d. h. er hat eine gute, aber nicht verdächtig übermäßige Vorhersagekraft und keine offensichtlichen Mängel), möglicherweise nur begrenzt untersucht, was die Wahrscheinlichkeit erhöht, dass versteckte Verzerrungen im Algorithmus unentdeckt bleiben.
Zusammenfassung
Bestätigungsfehler („confirmation bias“) können sowohl das Modelldesign als auch die Stichproben betreffen.
Bei der Modellentwicklung kann der Confirmation Bias sowohl die Wahl der abhängigen Variable (d. h. die Definition des Ergebnisses, das der Algorithmus vorhersagen soll) als auch die Wahl der unabhängigen Variablen (d. h. die zur Vorhersage des Ergebnisses verwendeten Merkmale) beeinträchtigen.
Bei der Stichprobenziehung kann der Confirmation Bias dazu führen, dass eine unvollständige Stichprobe gewählt wird, in der diejenigen Beobachtungen fehlen, die die Hypothesen des Datenwissenschaftlers in Frage stellen würden.
Im Allgemeinen äußert sich der Confirmation Bias daher am häufigsten in der Auslassung von Daten oder Merkmalen.
Ego-Depletion ist eine geistige Ermüdung, die durch eine übermäßige Anzahl von Mikroentscheidungen (oder einfach durch stundenlanges Arbeiten an ein und derselben Aufgabe) hervorgerufen werden kann und allmählich Vorurteile einführt oder verstärkt, um den kognitiven Aufwand zu minimieren.
Aufgrund der Ego-Depletion wirken sich schädliche Vorurteile am ehesten dann auf die Arbeit von Datenwissenschaftlern aus, wenn sie sich in einem Zustand geistiger Erschöpfung befinden.
Übermäßiges Selbstvertrauen veranlasst den Datenwissenschaftler, Signale zurückzuweisen, die darauf hindeuten, dass das Modell verzerrt sein könnte, selbst wenn keine Ego-Depletion vorliegt.