T. BärAlgorithmic Bias: Verzerrungen durch Algorithmen verstehen und verhindernhttps://doi.org/10.1007/978-3-662-66315-8_21

21. Wie man maschinelles Lernen mit traditionellen Methoden verbindet

Tobias Bär¹

(1)

Taipei, Taiwan

Wenn ich die Wahl habe, einen Kuchen zu behalten oder ihn zu essen, versuche ich immer, einen Weg zu finden, beides zu tun. Und das ist mir im Bereich des maschinellen Lernens auch gelungen!

Vielleicht waren Sie überrascht, vielleicht sogar verärgert über den negativen Ton, den ich im vorigen Kapitel über maschinelles Lernen angeschlagen habe. Das liegt nicht daran, dass ich das maschinelle Lernen nicht respektiere und bewundere – ich wollte Ihnen nur die Augen für die Grenzen des maschinellen Lernens öffnen. Einem Datenwissenschaftler, der nicht in der Lage ist, mit den Risiken algorithmischer Verzerrungen umzugehen, Tools für maschinelles Lernen an die Hand zu geben, kann so gefährlich sein, wie einem Fahranfänger einen Porsche zu geben. Und angesichts dessen, was wir über den Overconfidence Bias gelernt haben, werden Sie mir hoffentlich zustimmen, dass ich wirklich laut schreien muss, damit meine Warnungen eine Chance haben, von allen Lesern beachtet zu werden!

Die Wahrheit ist, dass maschinelles Lernen Ihnen eine Menge Macht gibt. Und oft leben die besten Algorithmen in der besten aller Welten – einem handwerklichen Modell, das sorgfältig von einem aufmerksamen Datenwissenschaftler erstellt wird, der eine breite Palette von Techniken des maschinellen Lernens als bloße Werkzeuge bei seiner Arbeit einsetzt. In diesem Kapitel möchte ich vier spezifische Techniken vorstellen, um Techniken des maschinellen Lernens in handwerkliche Modelldesigns einzubinden, die eine umfassende Überwachung durch Datenwissenschaftler ermöglichen, um algorithmische Verzerrungen zu vermeiden:

Maschinelles Lernen auf Prädiktorebene
Segmentierung mit Hilfe von maschinellem Lernen
Identifizierung von Interaktionseffekten durch maschinelles Lernen
Zweite Meinung durch maschinelles Lernen

In den folgenden Abschnitten werde ich jedes dieser Elemente kurz erläutern.

Maschinelles Lernen auf Prädiktorebene

Das maschinelle Lernen hat einen besonderen Vorteil gegenüber anderen Techniken bei sehr granularen (und damit großen) Daten, z. B. wenn es für jede Beobachtungseinheit (z. B. einen Patienten oder einen Kreditantragsteller) eine große Anzahl von Transaktionen gibt, wie z. B. Messwerte eines Systems zur kontinuierlichen Glukoseüberwachung oder Kredit- und Debitkartentransaktionen. Es hat auch eindeutige Nachteile, wie z. B. die Tendenz zur Überanpassung (d. h. zur Instabilität), wenn kategoriale Variablen sehr seltene Kategorien haben oder wenn die Daten einen Rückschaufehler verursachen. Warum also nicht einfach den Einsatz des maschinellen Lernens auf bestimmte Variablen beschränken, die speziell aus den Datenquellen abgeleitet werden, in denen das maschinelle Lernen am besten funktioniert?

Wenn Sie aus einem bestimmten Dateninput mithilfe von maschinellem Lernen eine eigenständige Schätzung erstellen, haben Sie eine komplexe Variable mit hoffentlich hoher Vorhersagekraft, die Sie nun sorgfältig in eine handwerkliche Gleichung einbetten können – was bedeutet, dass Sie jede Menge Änderungen oder Einschränkungen vornehmen können, um Algorithmen vor Verzerrungen zu schützen. Tatsächlich eröffnet dieser Ansatz sogar die Möglichkeit, föderales maschinelles Lernen zu verwenden – ein Ansatz, bei dem die Daten, die zur Entwicklung des Algorithmus verwendet werden, auf verteilten Geräten liegen (z. B. auf den Mobiltelefonen vieler verschiedener Nutzer oder den Kühlschränken des Internets der Dinge) und nie zu einer großen Datenbank zusammengefasst werden, die dem Datenwissenschaftler zur Verfügung steht. Der Ansatz schätzt einen eigenständigen Algorithmus auf jedem Gerät und sendet dann nur den Algorithmus selbst an einen zentralen Server, der die Aggregation aller Algorithmen nutzt, um kontinuierlich eine optimierte Version zu erstellen, die wieder an alle Geräte verteilt wird.

Wie man solche Merkmale in Schach hält, hängt von der Komplexität des von Ihnen gewählten Ansatzes ab. Ein Ansatz, der als genetischer Algorithmus bezeichnet wird, erstellt und testet alle Arten von Variablentransformationen und sendet Ihnen die besten Transformationen, die er gefunden hat; diese sind oft immer noch ausreichend transparent, damit ein Fachexperte beurteilen kann, ob die Transformation sinnvoll und gegen Verzerrungen gefeit ist.

Bei anderen Ansätzen wird die Funktion zu einer Blackbox. Nehmen wir zum Beispiel einen Rekrutierungsprozess für Vertriebsmitarbeiter in einer Filiale per Videochat. Eine durch maschinelles Lernen gestützte Videoanalyse könnte messen, wie viel Prozent der Zeit der Bewerber lächelt – ein wahrscheinlich nützlicher Indikator für die Fähigkeit eines Bewerbers, eine Beziehung zu einem Kunden aufzubauen, insbesondere wenn der Algorithmus in der Lage ist, falsches Lächeln (bei dem sich nur ein Gesichtsmuskel bewegt – derjenige, der bewusst gesteuert werden kann) von echtem Lächeln zu unterscheiden (bei dem zwei Muskeln angespannt werden müssen, von denen einer nicht manipuliert werden kann und daher wirklich einen einfühlsamen emotionalen Zustand widerspiegelt). In diesem Fall können Sie den Algorithmus selbst nicht untersuchen. Stattdessen muss das Vorhandensein einer algorithmischen Verzerrung in diesem Merkmal durch die Art von Analysen festgestellt werden, die in Kap. 19 besprochen wurden.

Nehmen wir nun an, dass Backtests ergeben haben, dass dieser Algorithmus für Zeta Reticulans viel besser funktioniert als für Marsmenschen – infolgedessen kann der Algorithmus etwa die Hälfte der Fälle, in denen ein Marsmensch lächelt, nicht erkennen, so dass Marsmenschen einen systematisch niedrigeren Freundlichkeitswert erhalten.

Ein Datenwissenschaftler, der sich dieses Problems dank der Röntgenuntersuchung des komplexen Lächelmerkmals bewusst wird (z. B. hätte er eine Korrelation zwischen der Neigung zum Lächeln und der Rasse feststellen können), könnte das Problem nun lösen, indem er das ursprüngliche Lächelmerkmal (das den prozentualen Anteil der Gesamtgesprächszeit misst) in eine Rangvariable umwandelt. Wie kann dies rassistische Verzerrungen beseitigen? Wenn der Rang innerhalb einer Rasse berechnet wird, werden die „Top 20 Prozent der Lächler“ immer sowohl 20 % aller Marsmenschen als auch 20 % aller Zeta-Reticulaner enthalten, selbst wenn Ihr Algorithmus für maschinelles Lernen behauptet, dass der am meisten lächelnde Marsmensch weniger als halb so viel lächelt wie der am meisten lächelnde Zeta-Reticulaner.

Und wenn im täglichen Betrieb plötzlich ein Problem auftritt (z. B. wenn Sie bei der Modellüberwachung feststellen, dass der Algorithmus für maschinelles Lernen, der das Merkmal „Lächeln“ berechnet, eine große Vorliebe für Menschen hat, die Kleidung in warmen Wüsten- und Sonnenuntergangstönen tragen, die als neuester Modetrend aufgetaucht sind), gibt es eine schnell implementierbare Notlösung, die darin besteht, dieses einzelne Merkmal auszuschalten, ohne den gesamten Algorithmus anzuhalten (was viel schwieriger ist, wenn alles in einer einzigen Blackbox untergebracht ist).

Segmentierung

Eine weitere Quelle für die Überlegenheit von Algorithmen des maschinellen Lernens gegenüber handwerklich abgeleiteten Algorithmen ist die Fähigkeit, Teilsegmente zu erkennen, die einen anderen Satz von Prädiktoren erfordern. Bei vielen handwerklichen Verfahren wie der logistischen Regression wird derselbe Satz von Prädiktoren auf alle angewandt, und es ist für einen Datenwissenschaftler oft schwierig zu erkennen, dass es ein Teilsegment gibt, das einen völlig anderen Ansatz (und damit ein eigenes Modell) erfordert.

Um das Beste aus zwei Welten zu haben, beginne ich mit der Erstellung sowohl eines handwerklichen Modells als auch eines Modells für maschinelles Lernen. Anschließend berechne ich für jede Beobachtung in meiner Stichprobe den Schätzfehler für jedes Modell und leite daraus die Fehlerdifferenz zwischen den beiden Modellen ab. Eine positive Differenz bedeutet, dass das maschinelle Lernmodell für diese Beobachtung besser war, eine negative, dass das handwerkliche Modell besser war.

Nun können Sie einen CHAID-Baum mit Ihrer PCA-priorisierten Auswahlliste von Prädiktoren (siehe Schritt 3 in Kap. 19) ausführen, um die Fehlerdifferenz vorherzusagen. Suchen Sie die Endknoten mit der größten positiven Fehlerdifferenz (d. h. diejenigen, bei denen der durchschnittliche Fehler des handwerklichen Modells viel größer ist als der durchschnittliche Fehler des maschinellen Lernmodells) und verfolgen Sie die Variablen und Abgrenzungen zurück, die diese Teilsegmente definiert haben. Machen diese Teilsegmente aus betriebswirtschaftlicher oder operativer Sicht Sinn? Stehen sie stellvertretend für etwas anderes (möglicherweise sogar stellvertretend für ein Segment, das durch eine Variable definiert ist, die nicht im Modellierungsdatensatz enthalten ist)?

Klassische Beispiele für eine solche Analyse sind selbständige Kunden in einer Kreditkartenstichprobe einer Bank, bei der die meisten Kunden Angestellte sind, oder ein großes Segment mit fehlenden Kreditauskunfteiinformationen. Wie immer kann die Diskussion dieser Ergebnisse mit den Mitarbeitern an der Front wertvolle Erkenntnisse bringen – manchmal ist der CHAID-Baum nur eine Annäherung an die „richtige“ Segmentdefinition auf der Grundlage operativer Attribute.

Beachten Sie, dass die Segmentierung manchmal auf die Widerspiegelung einer externen Voreingenommenheit hinausläuft – wenn z. B. in einem stark diskriminierenden Umfeld Marsmenschen dazu neigen, nicht zu Universitäten zugelassen zu werden, könnten Sie feststellen, dass die Empfehlung des CHAID-Baums darin besteht, ein separates Modell für Marsmenschen zu erstellen, weil die gesamte Gruppe von Merkmalen, die sich auf die Besonderheiten der Universitätsausbildung des Bewerbers beziehen, nur für Zeta Reticulans funktioniert. Sie sehen, dass Sie sehr schnell zu sehr schwierigen Abwägungen gezwungen sein können – aber der Vorteil dieses hybriden Ansatzes ist, dass Sie als Datenwissenschaftler selbst entscheiden können, wie Sie mit diesem Muster in den Daten umgehen.

Sobald Sie sich für ein oder zwei Segmente entschieden haben, die ein grundlegend anderes Modell erfordern, können Sie für diese Segmente separate Algorithmen entwickeln. Das Ergebnis ist verblüffend – oft genug erreiche ich mit dieser Technik eine Vorhersagekraft, die nicht nur gleichwertig, sondern höher ist als die des durch maschinelles Lernen erstellten Modells (z. B. kann die Outperformance bei binären Ergebnissen 1–2 Gini-Punkte betragen, was für manche Zwecke eine Menge Geld sein kann – wenn Ihr Kreditportfolio einen jährlichen Verlust von 500 Mio. USD aufweist, würde eine Reduzierung um nur wenige Prozentpunkte ausreichen, um für den Rest Ihres Lebens jeden Abend in einem Gourmet-Restaurant mit drei Michelin-Sternen zu essen …).

Interaktionseffekte

Eine weitere Erkenntis von maschinellem Lernen, die handwerklichen Ansätzen oft entgeht, sind Interaktionseffekte: Situationen, in denen nur die Kombination mehrerer Attribute von Bedeutung ist. Wenn Ihre Aufzeichnungen beispielsweise darauf hinweisen, dass der Kunde weiblich ist, die Stimme, die mit Ihrem automatischen Sprachdialogsystem interagiert, jedoch männlich klingt, ist die Wahrscheinlichkeit hoch, dass sich ein Betrüger als Ihr Kunde ausgibt. In diesem Fall gibt es ein Signal, das die Schätzung der Betrugswahrscheinlichkeit nach oben korrigieren sollte. Das perfekte handwerkliche Modell würde dieses Signal erfassen, könnte aber ansonsten die gleichen Vorhersagevariablen wie für jeden anderen Fall in der Grundgesamtheit verwenden. In diesem Fall würde die Erstellung von Untersegmenten (z. B. getrennte Betrugsmodelle für weibliche und männliche Kunden) unnötige Komplexität (und Aufwand) mit sich bringen – stattdessen fügt die Technik des Interaktionseffekts dem artisanalen Modell einfach zusätzliche Variablen hinzu.

Der bei weitem einfachste (und oft ausreichende) Ansatz besteht darin, für jeden Interaktionseffekt einen binären Indikator (eine so genannte Dummy-Variable) hinzuzufügen. Das Modell könnte durch die Einführung einer neuen Variable „geflickt“ werden, die den Wert 1 hat, wenn der erfasste Kunde weiblich ist und die Stimme männlich klingt (oder umgekehrt), und ansonsten den Wert 0. Man könnte auch komplexere Anpassungen in Erwägung ziehen, wie z. B. die Einführung eines Interaktionseffekts zwischen dem Geschlecht des Kunden und einem „Männlichkeits“-Score der Stimme (d. h. einem effektiven „Herunterregeln“ des Warnsignals, wenn der Klang der Stimme eher unschlüssig ist).

Die am schwierigsten zu identifizierende (aber oft sehr wirkungsvolle) Möglichkeit liegt in der Normalisierung unabhängiger Variablen, indem man sie durch einen kontextbezogenen Vergleichswert teilt. Als ich beispielsweise ein Modell zur Vorhersage des Umsatzes von Kleinunternehmen in einem Schwellenland erstellte, verwendete ich Prädiktoren wie Kreditkarteneinnahmen, Stromverbrauch und Nutzfläche der Geschäftsräume. Das Modell wies einige Verzerrungen auf, da in einigen Branchen die Umsätze pro Quadratmeter besonders hoch waren, während in ländlichen Gebieten Kreditkarten viel weniger verbreitet waren als in Städten. Daher habe ich die Prädiktoren durch den Median ihrer Vergleichsgruppen (z. B. Apotheken auf dem Land und in der Stadt) normalisiert und ein viel leistungsfähigeres (und gerechteres) Modell erhalten.

Genau wie der Segmentierungsansatz kann auch die Technik der Interaktionseffekte die Leistung des Hybridmodells über die des Benchmark-Modells für maschinelles Lernen hinaus steigern. Und es versteht sich von selbst, dass beide Techniken (Segmentierung und Interaktionseffekte) sogar kombiniert werden können, um dem reinen maschinellen Lernen den Rang abzulaufen!

Die Technik der Zweitmeinung

Wenn Sie die Fehler eines handwerklichen Modells und eines Modells des maschinellen Lernens von Fall zu Fall vergleichen, werden Sie feststellen, dass sich die Überlegenheit des Modells des maschinellen Lernens nur im Durchschnitt bemerkbar macht – die Zahl der Fälle, in denen die Schätzung des Modells des maschinellen Lernens schlechter ist als die des handwerklichen Modells, ist oft fast genauso groß wie die Zahl der Fälle, in denen das Modell des maschinellen Lernens besser abschneidet.

Eine natürliche Interpretation dieser Situation wäre die Schlussfolgerung, dass Fälle, in denen die beiden Modelle nicht übereinstimmen, in irgendeiner Weise außergewöhnlich sind und daher von der Expertise eines Menschen profitieren würden. Beim Zweitmeinungsansatz wird also ein maschinelles Lernmodell parallel zu einem handwerklichen Modell ausgeführt, und Fälle, bei denen die beiden Modelle stark voneinander abweichen, werden zur manuellen Überprüfung markiert. Die manuelle Überprüfung kann oft erheblich verbessert werden, indem Regeln aufgestellt werden, die die wahrscheinliche Quelle der Diskrepanz kennzeichnen (z. B. durch Kennzeichnung von Attributen des Falles, die eine Anomalie darstellen könnten – in vielen Fällen reicht es aus, wenn der menschliche Prüfer einige Eingabedaten anpasst, damit die beiden Modelle übereinstimmen) und indem ein Rahmen oder sogar bestimmte Schritte für die manuelle Überprüfung vorgeschrieben werden, wie z. B. die manuelle Erfassung bestimmter zusätzlicher Informationen. In vielen Fällen habe ich sogar eine vollwertige separate qualitative Scorecard erstellt, die nicht nur systematisch 10–25 zusätzliche Datenpunkte durch den menschlichen Prüfer sammelt, sondern auch aktiv Beurteilungsverzerrungen durch so genannte psychologische Leitplanken ausschließt.

Streng genommen ist das Markieren eines Teils der Fälle zur manuellen Überprüfung durch den Vergleich zweier konkurrierender Modelle keine Modellierungstechnik. Indem ich dies in meine Liste aufnehme, möchte ich jedoch meine Überzeugung bekräftigen, dass das ultimative Ziel des Datenwissenschaftlers die Optimierung eines Entscheidungsproblems ist und dass die ideale Architektur des Entscheidungsprozesses sehr wohl Schritte außerhalb eines statistischen Algorithmus umfassen kann. Oft ist der Datenwissenschaftler in einer einzigartigen Position, um Manager und andere Nutzer von Algorithmen auf eine solche Möglichkeit hinzuweisen und dadurch einen enormen wirtschaftlichen Wert zu schaffen.

Zusammenfassung

In diesem Kapitel haben Sie gelernt, dass Datenwissenschaftler in der Tat das Beste aus zwei Welten haben können, indem sie maschinelles Lernen nutzen, um wertvolle Erkenntnisse aus den Daten zu gewinnen, und gleichzeitig handwerkliche Techniken anwenden, um Verzerrungen aus dem Modell herauszuhalten. Die wichtigsten Erkenntnisse sind:

In Fällen, in denen große und komplexe Daten nur mit maschinellem Lernen nutzbar gemacht werden können, könnten Sie statt der Erstellung eines großen Blackbox-Modells die Verwendung von maschinellem Lernen zur Erstellung einer Reihe komplexer Variablen in Erwägung ziehen (in der Regel unter Verwendung nur einer bestimmten Datenquelle oder einer Reihe von Datenfeldern für jedes Merkmal, die ihm eine genau definierte betriebswirtschaftliche oder operative Bedeutung verleihen).
Wenn ein Benchmark-Modell für maschinelles Lernen besser abschneidet als Ihr handwerkliches Modell, können Sie einen CHAID-Baum verwenden, um die Arten von Fällen zu verstehen, die zu dieser besseren Leistung führen.
Wenn Sie feststellen, dass die überdurchschnittliche Leistung des Benchmark-Modells für maschinelles Lernen aus bestimmten Teilsegmenten stammt, für die Ihr handwerkliches Modell ungeeignet ist, können Sie in Erwägung ziehen, separate Modelle für diese Teilsegmente zu erstellen. Oft konzentriert sich das Problem wirklich nur auf ein oder zwei solcher Segmente.
Wenn die Outperformance hingegen auf Interaktionseffekte zurückzuführen ist, können Sie diese Effekte durch zusätzliche Variablen (z. B. Indikatorvariablen) erfassen, die Sie in Ihr handwerkliches Modell einbeziehen.
Handwerkliche Modelle, die auf diese Weise mit maschinellem Lernen erweitert wurden, schneiden oft besser ab als das Benchmark-Modell mit maschinellem Lernen.
Wenn es jedoch auch mit dem handwerklichen Ansatz nicht gelingt, eine Verzerrung zu beseitigen, oder wenn die oben genannten Techniken die vom Benchmark-Modell für maschinelles Lernen gewonnenen Erkenntnisse nicht replizieren können, sollten Sie auch die gesamte Architektur des Entscheidungsprozesses überdenken.

Ich habe das Sprichwort widerlegt, dass man einen Kuchen nicht behalten und ihn gleichzeitig auch essen kann. Es gibt jedoch noch eine andere Weisheit, die nach wie vor gilt: Es gibt kein kostenloses Mittagessen – also müssen Sie für Ihren Wunderkuchen bezahlen. Die hier vorgestellten hybriden Ansätze erfordern Zeit, da sie im Wesentlichen manuell sind. In manchen Situationen steht diese Zeit für die manuelle Modellabstimmung jedoch einfach nicht zur Verfügung – und das ist nirgendwo so akut wie im Fall der sich selbst verbessernden Algorithmen für maschinelles Lernen. Bis ein Datenwissenschaftler ein handwerkliches Modell aktualisiert hat, hat ein selbstverbessernder Algorithmus für maschinelles Lernen bereits mehrere neue Generationen durchlaufen, so dass die Arbeit des Datenwissenschaftlers schon veraltet ist, bevor sie überhaupt beendet ist.

Im nächsten Kapitel werden wir daher erörtern, wie sich Verzerrungen am besten aus selbstverbessernden Algorithmen für maschinelles Lernen heraushalten lassen.