© Der/die Autor(en), exklusiv lizenziert an APress Media, LLC, ein Teil von Springer Nature 2022
T. BärAlgorithmic Bias: Verzerrungen durch Algorithmen verstehen und verhindernhttps://doi.org/10.1007/978-3-662-66315-8_22

22. Wie man Voreingenommenheit in selbstverbessernden Modellen vermeidet

Tobias Bär1  
(1)
Taipei, Taiwan
 

Einer der größten Vorteile des maschinellen Lernens besteht darin, dass die Modelle sich selbst entwickeln und aktualisieren können, ohne dass ein menschliches Eingreifen erforderlich ist, so dass sie in der Lage sind, schnellstmöglich auf strukturelle Veränderungen zu reagieren. Gerade der Kontext, der solche sich selbst verbessernden Algorithmen erfordert (die schnelle Veränderung des Umfelds, in dem sie arbeiten), ist auch die Quelle eines erhöhten Risikos von Voreingenommenheit, die sich auf den Algorithmus auswirkt, sei es durch sich selbst verstärkende Rückkopplungsschleifen, wie wir sie im Zusammenhang mit sozialen Medien erlebt haben (Kap. 11), oder durch neue Daten, die es dem Algorithmus ermöglichen könnten, eine Voreingenommenheit gegenüber einer geschützten Klasse zu entwickeln.

In diesem Kapitel beschreibe ich daher einige spezifische Werkzeuge, die dabei helfen können, algorithmische Verzerrungen in selbstverbessernden maschinellen Lernmodellen in Schach zu halten. Die Anwendbarkeit und Effektivität der einzelnen Techniken hängt stark vom jeweiligen Kontext ab. Daher ist es meine Absicht, Ihnen nützliche Hinweise für Ihr individuelles Modelldesign zu geben und nicht eine „Einheitslösung“ zu beschreiben.

Um selbstverbessernde maschinelle Lernmodelle sicher zu betreiben, schlage ich vor, drei Elemente zu berücksichtigen:
  • Modellmechanik

  • Eine „Notbremse“, die verhindert, dass eine aktualisierte Version des Modells in Betrieb genommen wird, wenn ein Warnsignal für eine signifikante Verzerrung aufleuchtet

  • Regelmäßige manuelle Überprüfung der Eingaben, Merkmale und Ergebnisse selbstverbessernder Modelle in der Produktion (dieser Prozess verhindert nicht, dass ein fehlerhaftes Modell in Betrieb geht, aber er begrenzt die Risiken, indem er versucht, Probleme schnell zu erkennen)

Schließlich werden wir erörtern, wie man mit maschinellem Lernen in Echtzeit umgeht, das die schnellste Version von selbstverbessernden Modellen ist.

Modellmechanik

In dieser Kategorie erfordern das Modelldesign, die Datenaufbereitung und der Algorithmus zur Schätzung des Modells Ihre besondere Aufmerksamkeit.

Das Modelldesign könnte das Risiko von Verzerrungen begrenzen, indem es das selbstverbessernde maschinelle Lernen „verpackt“, wie diese beiden Beispiele zeigen:
  • Durch den Aufbau getrennter Modelle für Marsmenschen und Zeta Reticulaner konzentrieren sich die selbstverbessernden Algorithmen auf eine bessere Platzierung von Personen innerhalb ihrer Vergleichsgruppe, aber es ist unmöglich, dass die Entscheidungsmaschine insgesamt eine Voreingenommenheit gegenüber einer der Gruppen entwickelt.

  • Selbstverbessernde Maschinen-Lern-Algorithmen könnten auch einfach nur Merkmale in einem stabilen, handwerklich abgeleiteten Modell sein. So könnte ein Algorithmus zur Überprüfung von Lebensläufen eine von einem Data Scientist sorgfältig entwickelte logistische Regression sein, die aus diskreten, selbstverbessernden, auf maschinellem Lernen basierenden Scores für Aspekte wie „technisches Wissen“, „Zielerreichung“ und „Mitarbeiterführung“ besteht.

Der Data-Engineering-Teil sollte alle in Kap. 18 besprochenen Best Practices in die Mechanik des selbstverbessernden Algorithmus einbringen. Dies impliziert insbesondere:
  • Die Skripte, die neue Daten in den Algorithmus einspeisen, müssen alle erforderlichen Ausschlüsse (z. B. immaterielle Vorgaben) und Datenbereinigungsschritte (z. B. Behandlung von Ausreißern) korrekt anwenden.

  • Ziehen Sie in Erwägung, für die Aktualisierung des Algorithmus nur Daten aus kontinuierlichen, randomisierten Versuchen zu verwenden (im Gegensatz zu Rückmeldungen, die Entscheidungen aus früheren Versionen des Algorithmus widerspiegeln und insofern verzerrt sind).

  • Bei der Entscheidung über das Zeitfenster, aus dem Sie die Daten für die Aktualisierung des Modells beziehen, sollten Sie die Länge des Fensters an die Häufigkeit anpassen, mit der ein bestimmter Ereignistyp oder ein bestimmtes Merkmal auftritt (z. B. sollten Sie nicht immer nur aus Gewohnheit die letzten sieben Tage der Internetnutzung betrachten, sondern sich darüber im Klaren sein, dass eine Variable (z. B. ein Merkmal, das misst, inwieweit eine Person anscheinend mehrere Optionen prüft, bevor sie eine Entscheidung trifft) in einem Zeitfenster von sieben Tagen mehr als genug Datenpunkte finden könnte, während ein anderer Prädiktor (z. B., ein Merkmal, das bestimmte Websites oder Suchbegriffe in einem Risikoprofil abbildet) die Daten eines ganzen Jahres erfordern könnte, da es sich um kategorische Variablen handelt, bei denen viele Werte recht selten sind und daher die meisten Ausprägungen in nur sieben Tagen nicht beobachtet werden oder ihr Auftreten statistisch nicht signifikant ist und somit Verzerrungen Tür und Tor öffnet).

  • Korrektes Erkennen unbekannter Werte: Es besteht eine echte Gefahr, wenn neue Kategorien auftauchen, weil sie oft versehentlich als etwas anderes interpretiert werden. Dies liegt daran, dass der Code, der kategorische Daten in einen Risikoindex oder -bereich abbildet, oft eine „Alles andere“-Klausel enthält (z. B. könnte ein Algorithmus, der automatisch vegetarische von nicht-vegetarischen Menüpunkten trennt, zuerst Artikel, die Huhn, Rind, Schwein, Lamm, Hase oder Hirsch enthalten, als „Fleisch“ bezeichnen, dann nach Schlüsselwörtern suchen, die auf Fisch oder Meeresfrüchte hinweisen, und alles andere als „Gemüse“ bezeichnen, wodurch Ihr neues Meerschweinchengericht prompt als Kartoffel behandelt wird). Richtig wäre es, eine „Ich weiß nicht“-Kategorie zu definieren und solche Fälle möglicherweise sogar in eine Ausnahmebehandlungsroutine zu leiten (d. h. keine automatische Entscheidung ohne menschliches Eingreifen zu treffen).

  • Ziehen Sie in Erwägung, automatische Routinen zur Erkennung von Verzerrungen in Ihr Skript einzubetten, so dass das Skript bei einer neuen Verzerrung in den Daten eine Alarmglocke läuten kann und automatische Aktualisierungen möglicherweise sogar ausgesetzt werden können.

Und für das Skript, das das Modell schätzt, empfehle ich insbesondere die folgenden beiden Sicherheitsvorkehrungen:
  • Begrenzen Sie, welche Art von Merkmalen der selbstverbessernde Algorithmus erstellen und testen kann. Es gibt Skripte, die Tausende von Transformationen erstellen, darunter beispielsweise den Kubus des Kosinus der Kontonummer. Wenn ein solches esoterisches Merkmal während der ursprünglichen Modellentwicklung nie aufgetaucht ist, wäre sein plötzliches Auftauchen im Modell zweifelhaft und würde eher zu einer neuen Verzerrung durch Überanpassung der Daten führen als eine bahnbrechende Einsicht in die esoterische Numerologie darstellen;

  • Programmieren Sie eine gründliche automatisierte Validierungsroutine, die mindestens eine Stichprobe innerhalb des Zeitraums und eine Validierungsstichprobe außerhalb des Zeitraums umfassen sollte, aber auch eine spezielle „Prüfungs“-Stichprobe von Fällen umfassen könnte, die speziell auf Verzerrungen und Kennzahlen für die Stabilität der Schätzungen testet. In meiner eigenen Arbeit verwende ich oft ein Verfahren, das Tausende von Modellkandidaten generiert, sie nach Vorhersagekraft oder betriebswirtschaftlichem Wert sortiert und dann einen nach dem anderen validiert, bis es einen findet, der alle Tests besteht. In Anbetracht meiner Besessenheit von der Robustheit der Modelle hat das erste Modell nur selten alle Prüfungen bestanden, aber in den meisten Fällen hat das ausgewählte Modell nicht viel schlechter abgeschnitten.

Bei der Entwicklung solcher Beschränkungen für den selbstverbessernden Algorithmus für maschinelles Lernen besteht natürlich der übliche Kompromiss zwischen der maximalen Vorhersagekraft (die sich in einem echten betriebswirtschaftlichen Nutzen niederschlagen kann) und der Robustheit, die das Risiko schädlicher Verzerrungen verringert. Wenn Sie das Beste aus beiden Welten wollen, könnten Sie auch ein System in Erwägung ziehen, bei dem der selbstverbessernde Algorithmus in der Produktion stark eingeschränkt ist, während Sie parallel dazu ein selbstverbesserndes „Freestyle“-Modell nur für das Benchmarking laufen lassen, und wenn dieser Algorithmus bei der Betrachtung des Kubus des Kosinus Ihrer Kreditkartennummer eine wesentlich bessere Leistung findet, erscheint eine Warnmeldung auf Ihrem Schreibtisch.

Überlegungen zur Konstruktion einer Notbremse

Die Notbremse ergänzt die automatisierte Validierungsroutine, die wir oben im Zusammenhang mit der Modellschätzung erörtert haben; sie konzentriert sich auf den kontinuierlichen Fluss von Modelleingaben und Modellausgaben.

Bei der Entwicklung einer Notbremse stehen zwei Entscheidungen im Vordergrund: was löst sie aus und welche Auswirkungen hat sie.

Die Grenze zwischen dem, was die „Notbremse“ auslöst, und dem, was nur bei der manuellen Überprüfung eines selbstverbesserten Modells nach der Implementierung Anlass zur Sorge gibt, ist subjektiv und hängt von der Risikobereitschaft sowie von praktischen Erwägungen ab. Die Messgrößen müssen sich für ein objektives Kriterium für den Auslöser eignen, und die Zahl der Fehlalarme muss akzeptabel sein.

Die Kalibrierung des Kompromisses zwischen Sicherheit und einer überschaubaren Anzahl von Fehlalarmen kann ein wenig Herumprobieren erfordern; wenn die Mehrzahl der Aktualisierungen der Modellgleichung eine manuelle Überprüfung auslöst, hat man nicht mehr wirklich einen selbstverbessernden Algorithmus. Um zu angemessenen Notbremsen zu gelangen, empfehle ich einen dreistufigen Ansatz:
  1. 1.

    Stellen Sie die gesamte Liste der Kennzahlen zusammen, die Sie nach der Implementierung überwachen wollen (siehe nächster Unterabschnitt), und legen Sie für jede Kennzahl Ihre Risikobereitschaft fest (d. h., wie viel Veränderung oder Verschlechterung der Leistung Sie zu akzeptieren bereit sind).

     
  2. 2.

    Testen Sie die von Ihnen angenommenen Kennzahlen in einem simulierten Durchlauf Ihres selbstverbessernden Algorithmus anhand historischer Daten und verfolgen Sie, wie häufig die einzelnen Kennzahlen eine Alarmglocke geläutet hätten; bei den Kennzahlen, die zu häufig einen Fehlalarm auslösen, sollten Sie überlegen, ob Sie den Auslösepunkt für die Notbremse ändern oder die Kennzahl ganz weglassen wollen.

     
  3. 3.

    Starten Sie den selbstverbessernden Algorithmus und verfolgen Sie, wie oft jede Kennzahl einen Fehlalarm auslöst; überdenken Sie jede Kennzahl, bei der dies zu häufig der Fall ist.

     
Sie müssen auch entscheiden, was zu tun ist, wenn die Notbremse gezogen wird: Wollen Sie die vorherige Version des Modells einfrieren (d. h. beibehalten), bis die selbstverbesserte Version manuell bewertet wird, oder wollen Sie den Entscheidungsprozess ganz aussetzen? Dies hängt davon ab, ob die Umgebung eine wesentliche strukturelle Veränderung erfahren hat oder ob bei der letzten Iteration des Algorithmus nur etwas schief gelaufen ist. Der sich selbst verbessernde Algorithmus könnte dies beurteilen, indem er auch die vorherige Version von sich selbst an den neuen Daten testet; wenn dies ebenfalls die Notbremse zieht, erscheint es nicht sinnvoll, überhaupt einen Algorithmus für die automatisierte Entscheidungsfindung weiterzuführen, und die automatisierte Entscheidungsfindung sollte ausgesetzt werden.

Die Idee der Notbremse könnte auch bei der Regulierung sich selbst verbessernder Algorithmen verwendet werden. Derzeit gibt es zum Beispiel ein Problem mit maschinellem Lernen für medizinische Zwecke, weil die Food and Drug Administration jede aktualisierte Version eines Algorithmus als neues „Gerät“ behandelt, das eine neue Zulassung erfordert, und zwar in einem zweijährigen Verwaltungsprozess. Ein eher auslösungsbasierter Ansatz für Sicherheitsvorschriften ist dagegen aus Ländern mit obligatorischen Sicherheitsinspektionen für Fahrzeuge bekannt, in denen die Erlaubnis zum Führen des Fahrzeugs vielleicht für ein paar Jahre erteilt wird, in denen nur wesentliche Änderungen am Auto eine sofortige Anforderung einer neuen Sicherheitsinspektion auslösen würden (nicht aber der Einbau eines größeren Rückspiegels oder das Anbringen eines Stoßstangenaufklebers, der für dieses Buch wirbt).

Modell-Überwachung

Welche Metriken sollten Sie überwachen? Ich empfehle, vier zukunftsorientierte Aspekte des Modells zu verfolgen:
  • Profil der Bevölkerung

  • Modellausgabe (Vorhersagen)

  • Modell-Attribute

  • Leistung bei der Validierung mit Daten außerhalb der Entwicklungs-Stichprobe

Das Populationsprofil könnte durch eine Verteilungsanalyse wichtiger Attribute eines Falles gemessen werden, wie z. B. der wichtigsten Modelleingaben und vielleicht einiger anderer Attribute, die von Geschäftsanwendern aktiv verfolgt werden (z. B. verfolgen Banken in der Regel die Verteilung von Kreditantragstellern nach Kreditauskunftei-Score, auch wenn ihr Kreditscoring-Algorithmus sehr viel detailliertere Eingaben als diesen zusammenfassenden Score verwendet); dies ist eine wirksame Methode, um strukturelle Veränderungen in der Population zu erkennen.

Sie könnten auch die „Grundgesamtheit“ clustern (z. B. die Stichprobe, auf der das ursprüngliche Modell entwickelt wurde) und den Prozentsatz der Fälle in der jüngsten Stichprobe messen, die weit vom Zentrum aller ursprünglichen Cluster entfernt sind; wenn dieser Anteil ansteigt, ist es wahrscheinlich, dass ein neues Segment oder Profil in die Grundgesamtheit eintritt. Dies ist zwar genau die Art von Situation, für die der selbstaktualisierende Algorithmus konzipiert ist, aber es bedeutet auch, dass eine zusätzliche manuelle Validierung erforderlich sein könnte, da Sie möglicherweise nicht über die richtigen Eingabedaten verfügen, um die Ergebnisse für dieses neue Segment vorherzusagen.

Dabei ist es wichtig, dass die Referenzpopulation „eingefroren“ ist (z. B. die Stichprobe, die der Datenwissenschaftler bei der Entwicklung der ersten Version des selbstverbessernden Algorithmus und der Festlegung der verschiedenen Parameter und Einschränkungen verwendet hat), denn andernfalls könnte der Algorithmus im „Schlaf“ erwischt (oder sogar manipuliert) werden, insbesondere wenn die Erkennung von Anomalien sein Hauptzweck ist (z. B. im Zusammenhang mit Betrug und Cybersicherheit). So wie Bakterien gegen ein Antibiotikum immun werden können, wenn sie zunächst nur eine kleine Menge des Antibiotikums aufnehmen, schlägt ein Algorithmus, der die heutige Population mit der gestrigen vergleicht, möglicherweise keinen Alarm, wenn die Menge einer bestimmten Art von „ungewöhnlichen“ Transaktionen zunächst sehr gering ist und dann von Tag zu Tag langsam ansteigt.

Die Modellausgabe bezieht sich auf die in Kap. 15 besprochene vorausschauende Metrik. Wenn Sie plötzlich feststellen, dass die Bewilligungsquote oder das prognostizierte Durchschnittseinkommen abweicht, ist es möglich, dass Ihr Modell einen Fehler aufweist.

Modellattribute beziehen sich auf unsere Diskussion über XAI (erklärbares maschinelles Lernen) und die Überwachung selbstverbessernder Algorithmen in Kap. 15.

Bei der Out-of-Sample-Validierung werden zwei Sätze von Analysen durchgeführt:
  • Die in Kap. 15 erörterten rückwärtsgerichteten Metriken werden anhand einer historischen Validierungsstichprobe berechnet, für die die Realisierung der abhängigen Variablen verfügbar sind.

  • Der Vergleich der Verteilung der Modellergebnisse zwischen der neuen Version des Algorithmus und einer früheren Referenzversion

Die manuelle Überprüfung dieser Metriken ergänzt die Schwellenwerte für automatische Auslöser. Wesentliche Änderungen des Populationsprofils oder der Modellausgabe könnten eine Notbremse auslösen; wesentliche Änderungen der Modellattribute oder signifikante Probleme bei der Validierung außerhalb der Stichprobe sollten bereits das Modellschätzungsverfahren selbst veranlassen, den Algorithmus zurückzuweisen.

Das bedeutet, dass sich die manuelle Überprüfung dieser Metriken eher auf Situationen konzentrieren würde, in denen entweder eine Metrik im „gelben“ Bereich liegt (zaghaftes Läuten der Alarmglocke, ohne eine rote Linie zu überschreiten) oder ein sich verschlechternder Trend bei diesen Metriken zu verzeichnen ist. Wir wollen wissen, ob der menschliche Prüfer auf der Grundlage dieser Daten einen tatsächlich alarmierenden Trend erkennen kann, oder ob er Anzeichen dafür sieht, dass eine Veränderung in der realen Welt den analytischen Ansatz des Entscheidungssystems langsam untergräbt, so dass Sie möglicherweise grundlegend überdenken müssen, welche Daten für die anstehende Entscheidung verwendet werden sollten.

Darüber hinaus sollten auch die in Kap. 15 erörterten rückwärtsgerichteten Metriken zur Rangordnungsfähigkeit und Kalibrierung überwacht werden. Wenn die Ergebnisse zum Zeitpunkt der Überprüfung der hier besprochenen Metriken vorliegen, könnten sie in denselben Bericht aufgenommen werden; andernfalls wäre dies aufgrund der zeitlichen Verzögerung ein separater Überwachungsprozess. Die Überwachung dieser Metriken unterscheidet sich nicht von herkömmlichen Modellen.

Und schließlich könnten Sie, wenn Sie mit einer Situation konfrontiert sind, in der Sie sich besondere Sorgen über eine bestimmte Verzerrung machen (z. B. ob Marsmenschen diskriminiert werden), die direkte Messung der Korrelation zwischen den Modellergebnissen und den geschützten Variablen in diesen Bericht aufnehmen, wie in Schritt 5 von Kap. 19 erläutert.

Maschinelles Lernen in Echtzeit

Bevor ich dieses Kapitel schließe, möchte ich kurz auf das maschinelle Lernen in Echtzeit eingehen. Während andere Arten von selbstverbessernden Algorithmen für maschinelles Lernen diskrete Versionen durchlaufen, die in regelmäßigen Zeitabständen entwickelt werden (oder durch ein bestimmtes Ereignis ausgelöst werden), produziert maschinelles Lernen in Echtzeit kontinuierlich neue Algorithmen. Es kann so viele neue Versionen geben, wie neue Fälle in das System strömen.

Maschinelles Lernen in Echtzeit ist nicht überall anwendbar. Es erfordert auch eine Kennzeichnung in Echtzeit (d. h. die Festlegung des Ergebnisses jedes Falles, wie z. B. des Gut/Schlecht-Indikators), und immer dann, wenn die Kennzeichnung eine menschliche Interaktion oder einen faktischen Batch-Prozess erfordert (z. B. ein „Ausfall“ tritt ein, wenn ein Konto 90 Tage lang nicht bezahlt wurde, was geschieht, wenn die Uhr Mitternacht schlägt oder ein Buchhaltungssystem die Tagesendverarbeitung durchläuft), definieren diese Prozesse den frühesten Zeitpunkt, zu dem sich ein Algorithmus selbst verbessern könnte.

Was aber tun, wenn maschinelles Lernen in Echtzeit stattfindet, wie z. B. bei der Suchoptimierung, wo die Click-Through-Ereignisse ebenso schnell eintreffen wie neue Suchanfragen? Hier sind Echtzeit-Notbremsen weder möglich noch notwendig. Sie sind (wahrscheinlich) aus Geschwindigkeitsgründen nicht möglich (die Algorithmen müssen blitzschnell geschätzt werden), aber sie sind auch wegen der Stabilitätsverzerrung der Algorithmen unnötig. Eine einzige Beobachtung kann einen Algorithmus so stark verändern, wie ein Vogel, der gegen einen Supertanker prallt, das Schiff umdrehen kann.

Das heißt, es ist nicht möglich, es sei denn, der Vogel hat ein Jetpack dabei – oder der neue Datenpunkt ist ein extremer Hebelpunkt. Ein einzelner extremer Ausreißer kann einen Algorithmus verzerren und birgt daher nicht nur das Risiko einer zufälligen Verzerrung, sondern auch einer vorsätzlichen Manipulation. Ich kann mir leicht Anwendungen vorstellen, bei denen es viele wirtschaftliche Anreize gibt, dies zu tun, z. B. bei dem Versuch, automatisierte Handelsalgorithmen zu überlisten (d. h. Roboter, die an den Aktien- und Devisenmärkten handeln). Und was ein einzelner Datenpunkt nicht erreichen kann, könnte vielleicht durch eine Salve von manipulierten Datenpunkten erreicht werden…

Der Schutz des maschinellen Lernens in Echtzeit vor Verzerrungen erfordert daher einen zweigleisigen Ansatz. Einerseits ist es absolut wichtig, die Eingabedaten im Auge zu behalten. Eine automatisierte Datenbereinigung, die für jede Variable Unter- und Obergrenzen setzt oder auf andere Weise vor Ausreißern schützt, sollte mit einer gezielten Überwachung von Anomalien in den Eingabedaten kombiniert werden, insbesondere wenn es jemanden gibt, der ein Interesse daran haben könnte, Ihrem Unternehmen Schaden zuzufügen.

Andererseits müssen Sie einen Hintergrundprozess laufen lassen, der in häufigen, regelmäßigen Abständen die Auslöser für die Notbremse auswertet und eingreift, wenn ein Problem auftritt (wozu natürlich auch Probleme mit den Eingangsdaten gehören).

Zusammenfassung

Selbstverbessernde Algorithmen werden im Wesentlichen durch einen Autopiloten entwickelt. Um diesen Autopiloten so einzurichten, dass Verzerrungen vermieden werden, sind einige Praktiken zu beachten:
  • Das Modelldesign kann die Gefahr einer algorithmischen Verzerrung einschränken, indem selbstverbessernde Algorithmen für maschinelles Lernen lediglich in ein übergreifendes Modellkonstrukt eingebettet werden.

  • Das Data Engineering muss alle relevanten Techniken sorgfältig einbinden, um zu verhindern, dass sich algorithmische Verzerrungen durch die automatisierten Dateneinspeisungen einschleichen.

  • Das automatisierte Modellschätzungsverfahren kann das Risiko von Verzerrungen einschränken, indem es die automatische Merkmalsgenerierung einschränkt und jede neue Version eines Modells automatisch validiert.

  • Eine Notbremse überwacht automatisch das Bevölkerungsprofil und die Modellergebnisse und kehrt entweder zu einer sicheren, früheren Version des Modells zurück oder stoppt den gesamten automatisierten Entscheidungsprozess, wenn eine Reihe sorgfältig ausgewählter und kalibrierter Auslöser einen Alarm auslösen.

  • Regelmäßige (nachträgliche) manuelle Kontrollen ergänzen die automatischen Schutzmaßnahmen gegen Verzerrungen.

In diesem und den vorangegangenen vier Kapiteln haben wir erörtert, wie Sie als Datenwissenschaftler systematisch Techniken zur Bekämpfung algorithmischer Verzerrungen in Ihre eigene Modellentwicklung integrieren können. Wenn Sie ein Team von Datenwissenschaftlern leiten, reicht es jedoch nicht aus, die Techniken zu kennen – Sie müssen auch darüber nachdenken, wie Sie diese Techniken institutionalisieren können. Dies wird das Thema des letzten Kapitels dieses Buches sein.