T. BärAlgorithmic Bias: Verzerrungen durch Algorithmen verstehen und verhindernhttps://doi.org/10.1007/978-3-662-66315-8_4

4. Der Modellentwicklungsprozess

Tobias Bär¹

(1)

Taipei, Taiwan

Im vorigen Kapitel haben Sie gesehen, wie ein Algorithmus funktioniert. In diesem Kapitel gehe ich darauf ein, wie ein Algorithmus entwickelt wird. Das ist natürlich sehr hilfreich, um die vielen Möglichkeiten zu verstehen, wie sich Vorurteile in Algorithmen einschleichen können. Auch erfahrene Datenwissenschaftler sollten einen kurzen Blick auf dieses Kapitel werfen, damit sie sich meines Denkrahmens und meiner Terminologie bewusst sind, da ich in Zukunft häufig auf beides Bezug nehmen werde. Eine Anmerkung zur Terminologie: Mit dem Aufkommen des maschinellen Lernens wurde ein völlig neues Vokabular eingeführt (z. B. wurden Beobachtungen zu Instanzen, abhängige Variablen im Englischen zu „Labels“ und prädiktive Variablen zu Merkmalen, „features“ im Englischen), was es leider sehr schwierig macht, etwas zu schreiben, das alle Generationen von Datenwissenschaftlern verstehen können. Zumindest ist die neue Berufsbezeichnung Data Scientist viel schicker als Modellentwickler, wie Datenwissenschaftler früher (ca. anno 2010) genannt wurden! Abgesehen von der Berufsbezeichnung werde ich in der Regel traditionellere Begriffe verwenden, vor allem zum Nutzen derjenigen, die in anderen Studienfächern nur ein klein wenig mit Statistik in Berührung gekommen sind und für die es einfacher ist, die Zusammenhänge zu verstehen, wenn ich vertraute Begriffe verwende.

Sie fragen sich vielleicht, warum im Titel dieses Kapitels von der Entwicklung eines Modells und nicht von einem Algorithmus die Rede ist. Wenn Datenwissenschaftler die Parameter einer Gleichung schätzen, um ein bestimmtes Ergebnis in einem bestimmten Kontext vorherzusagen (z. B. die Ausfallwahrscheinlichkeit für das kanadische Privatkundenportfolio einer Bank), nennen wir das Ergebnis normalerweise ein Modell. Die Terminologie variiert oft ein wenig je nach Branche, Region, Funktion (z. B. Risikomanagement oder Marketing) und sogar Organisation; einige Leser (z. B. im Bankwesen tätige Personen) werden den Begriff Modell kennen (z. B. verwenden die US-Bankenaufsichtsbehörden diesen Begriff, um die Algorithmen der Banken zu regulieren), während andere vielleicht an den Begriff Algorithmus gewöhnt sind (z. B. Personen, die sich mit bestimmten Funktionen einer Website wie einer Empfehlungsmaschine beschäftigen). Für unsere Zwecke ist es nicht notwendig, zwischen den Begriffen Modell und Algorithmus zu unterscheiden.

Überblick über den Modellentwicklungsprozess

Grob gesagt kann man fünf Hauptschritte in der Modellentwicklung unterscheiden: Modelldesign, Datenaufbereitung („data engineering“ im Englischen), Modellzusammenbau („model assembly“), Modellvalidierung und Modellimplementierung.

1.
Das Modelldesign definiert die Gesamtstruktur des Modells, z. B. was hineingehen und was herauskommen soll – nicht anders als der Plan, den ein Architekt für den Bau eines neuen Hauses erstellt.
2.
Die Datenaufbereitung bereitet sozusagen die Datensuppe zu, die zur Schätzung der Koeffizienten des Algorithmus verwendet wird. Die Datenaufbereitung umfasst alle Aktivitäten von der Identifizierung der zu erfassenden Daten (in unserer Architekturanalogie ist dieser erste Teilschritt die Bestellung von Baumaterialien) bis hin zur ordentlichen Anordnung aller Daten in einer oder mehreren großen Tabellen – wobei sich die meisten Herausforderungen hinter dem Begriff „ordentlich“ verbergen. (Denken Sie nur an Badezimmerfliesen – wenn Sie ein perfektes Badezimmer haben wollen, muss der Fliesenleger jede einzelne Fliese sorgfältig prüfen, die kaputten entsorgen und einige Fliesen genau auf die richtige Größe zuschneiden, damit sie in Ecken und Ritzen passen).
3.
Der Modellzusammenbau ist das Herzstück der Modellentwicklung. Hier werden die Rohdaten in eine Gleichung umgewandelt, deren Koeffizienten durch statistische Verfahren geschätzt werden.
4.
Die Modellvalidierung ist eine unabhängige Überprüfung und Bestätigung der Gebrauchstauglichkeit des Modells.
5.
Die Modellimplementierung ist der Einbau des Modells in den tatsächlichen Geschäftsbetrieb.

Lassen Sie uns jeden Schritt etwas ausführlicher besprechen, insbesondere die beiden wichtigsten Schritte zur Eindämmung von Verzerrungen: Datenaufbereitung und Modellzusammenbau.

Schritt 1: Modelldesign

Das Modelldesign bestimmt die großen, grundlegenden Fragen zu einem Modell. Wir können sie als die „vier Kernfragen“ bezeichnen:.

Welches Attrribut wird geschätzt …
für welche Geschäftsprobleme …
auf der Grundlage welcher Daten …
mit welcher Methodik?

Die Antworten auf diese Fragen hängen von den Bedürfnissen der Geschäftsanwender und der Art und Weise ab, wie sie das Modell nutzen wollen. So wie ein Architekt ein unbrauchbares Gebäude entwerfen kann, wenn er die Bedürfnisse des Bauherren nicht ausreichend versteht, können sich viele Vorurteile in ein Modell einschleichen, wenn die Kommunikation zwischen dem Datenwissenschaftler und den Geschäftsanwendern unzureichend ist.

Schritt 2: Datenaufbereitung („data engineering“)

Genauso wie einige der besten Pariser Köche stolz darauf sind, den Marché International de Rungis in aller Frühe zu besuchen, um die besten lokalen Produkte zu bekommen (der Markt öffnet um 1 Uhr nachts und schließt um 11 Uhr), findet ein Großteil der Wertschöpfung des Datenwissenschaftlers in der Phase des Data Engineering statt. Auch wenn verschiedene Datenwissenschaftler leicht unterschiedliche Terminologien und Gruppierungen für ihre Aktivitäten verwenden, finde ich es am nützlichsten, fünf Hauptelemente des Data Engineering zu unterscheiden: Stichprobendefinition, Datenerfassung, Aufteilung von Stichproben, (Behandlung der) Datenqualität und Datenaggregation.

Die Definition der Stichprobe bestimmt genau, welche historischen Referenzfälle in die Datenerhebung einbezogen werden sollen. In Ihrem Beispiel mit den Haaren haben Sie 200 Referenzfälle ausgewählt – sollen diese alle in Ihrer Nachbarschaft liegen oder sollen Sie einige Datenpunkte aus einer anderen Stadt oder sogar einem anderen Land einbeziehen? Sollten Sie darauf achten, Berliner, Bayern und Westfalen in einem bestimmten Verhältnis einzubeziehen – ein Prozess, der Stratifizierung genannt wird? Was ist mit Saarländern? Sollten Sie auch nach Alter und Geschlecht stratifizieren? Und wäre es besser, Daten über 500, 50.000 oder vielleicht 5 Millionen Menschen zu sammeln? Die Definition von Stichproben wird schnell komplex, und jeder Kompromiss, den Sie eingehen, kann Ihnen schnell zum Verhängnis werden! Nur die Verkäufer von überteuerten Software-Tools werden behaupten, dass dies einfach ist – meiner Erfahrung nach sind viele der schwerwiegendsten Probleme von Algorithmen auf eine schlechte Stichprobenziehung zurückzuführen.
Die Datenerhebung ist der Prozess der Beschaffung der tatsächlichen Daten für Ihre Stichprobe. Früher musste dazu oft die IT-Abteilung Abfragen in COBOL für Großrechner schreiben oder Datenbänder aus dem verstaubten Archiv im Keller holen; heute kann der Datenwissenschaftler meistens eine „einfache“ Abfrage in den Data Lake eintippen. Daten müssen unter Umständen aus mehreren Quellen zusammengetragen werden; manchmal müssen sie sogar manuell erfasst werden (z. B. in Papierakten nachgeschlagen und in eine Tabellenkalkulation eingetippt).
Die Aufteilung der Stichprobe in eine Entwicklungs-, eine Test- und eine Validierungsstichprobe ist von entscheidender Bedeutung, um eine ordnungsgemäße Validierung des Modells zu ermöglichen (eine Schlüsseltechnik, um sicherzustellen, dass das Modell ordnungsgemäß funktioniert). Wenn Sie dies vergessen oder eine schlechte Wahl bei der Aufteilung treffen (z. B. wenn Sie zu wenige oder ungeeignete Daten für die Validierung haben), haben Sie ein Problem. Die Modellkoeffizienten werden auf der Grundlage der Entwicklungsstichprobe geschätzt; wenn das Modell in der Teststichprobe keine vergleichbare Vorhersagekraft aufweist, weiß der Datenwissenschaftler, dass das Modell an die Entwicklungsstichprobe überangepasst und daher instabil ist, und kann das Modell korrigieren. Bei vielen Iterationen kann das Modell jedoch auch an die Teststichprobe überangepasst werden, und daher ist eine separate Validierungsstichprobe, die vor der endgültigen Validierung nicht berührt wird, der ultimative Test für die Stabilität des Modells. Ein paranoider Benutzer darf die Entwicklungsstichprobe nicht mit dem Datenwissenschaftler teilen, bevor das Modell fertig ist (so werden Modellierungswettbewerbe durchgeführt). Vergisst Ihr Datenwissenschaftler dagegen, die Stichprobe gleich zu Beginn zu teilen, ist die Integrität des Denkprozesses ruiniert, selbst wenn später eine Validierungsstichprobe beiseite gelegt wird. Das ist ein bisschen so, als würden Sie das Tagebuch Ihres Kindes lesen: Sobald Sie es gelesen haben, haben Sie sein Vertrauen gebrochen, selbst wenn Sie das Tagebuch wieder so ins Regal stellen, wie es war.
Die Datenqualität muss zunächst bewertet werden, und sobald die spezifischen Probleme der gesammelten Daten identifiziert wurden (z. B. fehlende Daten oder unsinnige Werte), muss eine unbeliebte Tätigkeit namens Datenbereinigung durchgeführt werden. Wenn man sich beispielsweise eine Stichprobe von Personen am 1. November 2018 ansieht und feststellt, dass die Hälfte von ihnen genau 118 Jahre und 10 Monate alt ist, ist das verdächtig – und eine genauere Untersuchung könnte ergeben, dass für viele Personen in der Datenbank das Geburtsdatum nicht erfasst wurde, sondern dass irgendein wirklich altes Computersystem vor drei Fusionen in solchen Fällen den 1. Januar 1900 als Standardgeburtsdatum eingegeben hat. Dann muss man entweder jedes Vorkommen des 1. Januar 1900 mit einem „missing“-Indikator überschreiben (also einem Hinweis, dass der Datenpunkt fehlt), oder wenn man wirklich Glück hat, stellt man fest, dass es sich um chinesische Staatsbürger handelt, für die man auch die Ausweisnummer hat, in der das Geburtsdatum verschlüsselt ist – so kann man das korrekte Alter für jeden von ihnen herausfinden und so dieses Datenqualitätsproblem bereinigen, indem man den 1. Januar 1900 mit dem korrekten Geburtsdatum aus der Ausweisnummer überschreibt. Warum ist dieser Vorgang jedoch so unbeliebt? Bei der Bereinigung der Daten könnten Sie darüber stolpern, dass für viele andere Personen (mit vernünftigeren Geburtsdaten) die ID-Nummer ebenfalls ein anderes Geburtsdatum anzeigt. Verärgert könnten Sie beschließen, das Geburtsdatum für alle Personen auf der Grundlage ihrer ID zu ersetzen. An diesem Punkt finden Sie jedoch mehrere Personen, die im Jahr 2058 geboren sind, was zum Zeitpunkt der Abfassung dieses Buches noch in der Zukunft liegt. Eine Untersuchung ihrer Ausweisnummern ergibt, dass die Prüfziffer der Ausweisnummer falsch ist und der Ausweis daher falsch erfasst worden sein muss. Sie seufzen und stellen fest, dass dies nie enden wird und dass Sie Datenbereinigung wirklich hassen, bevor Sie anhand der Prüfziffer alle Datenpunkte mit fehlerhafter ID herausfiltern und überlegen, wie Sie nun dieses Problem beheben.
Bei der Datenaggregation werden mehrere Datenelemente (z. B. einzelne Transaktionen, die Sie mit einer Kreditkarte durchgeführt haben, oder Elemente im Suchverlauf Ihres Browsers) zu neuen Variablen zusammengefasst. Dies ist ein wichtiger Schritt, der gleichzeitig zu aufschlussreicheren Variablen führen (z. B., es könnte aussagekräftiger sein zu wissen, dass Sie im Durchschnitt 1287 Euro pro Monat für Lebensmittel ausgeben, als zu wissen, dass Sie gestern 0,69 Euro bei Aldi ausgegeben haben – Sie haben die Schlagsahne vergessen, nicht wahr?) und Informationen verlieren kann (die Tatsache, dass Sie in drei von vier Fällen innerhalb von fünf Stunden nach einem Großeinkauf mit einem Transaktionswert von mehr als 50 Euro in denselben Supermarkt zurückkehren, um einen weiteren Kleineinkauf im Wert von weniger als 10 Euro zu tätigen, ist eine sehr wichtige Erkenntnis, die einer Bank einen Hinweis geben könnte, dass Sie viel eher vergessen, Ihre Kreditkarte zu bezahlen, als der durchschnittliche Kunde – wenn ich also alle Lebensmitteleinkäufe zu einem Gesamtbetrag pro Tag oder Monat zusammenfasse, geht die Information verloren, wie zerstreut und vergesslich Sie sind).

Bei den meisten Modellentwicklungen ist die Datenaufbereitung der zeitaufwändigste Arbeitsschritt; wie Sie gleich sehen werden, bietet er auch die Möglichkeit, Verzerrungen zu erzeugen.

Schritt 3: Zusammenbau des Modells

Sobald die Daten aufbereitet sind, können die Datenwissenschaftler mit der Zusammenstellung des Algorithmus beginnen. Dazu gehört viel mehr als nur die Ausführung eines statistischen Softwarepakets zur Schätzung der Koeffizienten einer Gleichung – es sind sogar sieben Teilschritte erforderlich. Die Schritte 2, 4 und 5 sind der Teil, der Datenwissenschaftlern in der Regel am meisten Spaß macht; es ist daher vielleicht kein Zufall, dass sie sich manchmal ganz auf diese Schritte konzentrieren und dann keine Zeit mehr für einige der anderen Schritte haben.

Ich sollte auch anmerken, dass der Begriff „Modellzusammenbau“ nicht sehr gebräuchlich ist; normalerweise hört man „Modellschätzung“ – aber ich will mit dem Begriff „Zusammenbau“ sagen, dass die Modellschätzung nur einer von sieben wichtigen Schritten ist, und dass sich oft Verzerrungen in die Modelle einschleichen, wenn die anderen Schritte vergessen werden oder zu kurz kommen.

Der Ausschluss von Datensätzen auf der Grundlage logischer Kriterien ist ein wichtiger Schritt zur Vermeidung von Verzerrungen. Viele Stichproben enthalten versteckten Müll, der durchrutscht, wenn Datenwissenschaftler nicht genügend Zeit auf diesen Schritt verwenden. Man könnte zum Beispiel naiverweise annehmen, dass man zur Erstellung eines Kreditrisikomodells einfach Kredite aus der Vergangenheit betrachtet, sie entweder als zurückgezahlt oder als ausgefallen klassifiziert und dann ein Modell schätzt. Ein großer Irrtum! Aufgrund von Rundungsproblemen haben viele Banken Kreditkonten in ihren Büchern, von denen der Kunde glaubt, sie vollständig zurückgezahlt zu haben, von denen aber noch ein Cent aussteht. Wenn dieser Cent mehr als 90 Tage überfällig ist, wird das Konto bei einem naiven Ansatz als „ausgefallen“ bezeichnet. Gleichzeitig könnten die Banken eine vernünftige operative Regel haben, die besagt, dass sie nichts unternehmen, wenn ein säumiger Kunde ihnen weniger als einen Euro schuldet, weil die Kosten für die Verfolgung von ein paar Cent viel höher sind als das geschuldete Geld; stattdessen werden sie diese Konten regelmäßig abschreiben. Nehmen wir weiter an, dass diese Rundungsprobleme nur dann auftreten, wenn der Kreditbetrag einen Bruchteil von 12.000 € enthält – das liegt daran, dass die Bank Zinssätze mit drei Stellen nach dem Komma festlegt, und 0,001 % auf 12.000 € sind genau 0,01 € pro Monat (= 12.000 € * 0,001 %/12). Können Sie sich vorstellen, was passieren wird? Ein cleverer Algorithmus könnte herausfinden, dass das Ausfallrisiko viel geringer ist als normal, wenn der Kreditbetrag ein Vielfaches von 12.000 € ist – und damit ein Schlupfloch schaffen, durch das einige risikoreiche Kunden rutschen und einen Kredit erhalten könnten, obwohl der Algorithmus sie bei jedem anderen Kreditbetrag ablehnen würde. Der Datenwissenschaftler muss daher die Verteilung der ausgefallenen Saldobeträge überprüfen, dieses Problem mit nicht materiellen Kleinstwerten identifizieren und jeden Datensatz mit einem Saldo unterhalb des operativen Schwellenwerts von 1€, bei dem die Bank Inkassobemühungen einleiten würde, ausschließen. Im Gegensatz zur Datenbereinigung (die sich mit faktisch falschen Daten befasst), geht es in diesem Schritt um konzeptionelle Probleme, die durch faktisch vollkommen korrekte Daten verursacht werden. Dieser Schritt hängt daher sehr von den Fachkenntnissen und dem Urteilsvermögen des Datenwissenschaftlers ab.
Die Entwicklung von Variablen („features“) ist der Prozess, bei dem neue, sog. transformierte Variablen erstellt werden, um aus Rohdaten Erkenntnisse zu gewinnen, die als Eingaben in einen Algorithmus verwendet werden können. Im Beispiel mit den Haaren haben Sie die Kodierung eines Dummys für Männer (d. h. männlich = 1, weiblich = 0) als sehr einfaches Beispiel gesehen. Die Entfernung des aktuellen Standorts eines Mobiltelefons vom nächstgelegenen der drei Orte, an denen es in den letzten 12 Monaten die meiste Zeit verbracht hat, ist ein Beispiel für ein sehr komplexes Merkmal. Vielleicht versuchen Sie, Online-Betrug zu bekämpfen – in diesem Fall könnten Sie auf die Idee kommen, dass es wahrscheinlicher ist, dass das Mobiltelefon gestohlen wurde und ein Dieb versucht, es zu benutzen, wenn es sich weit von seinem typischen Standort entfernt. Was ist ein typischer Standort? Hier haben Sie beschlossen, die drei wichtigsten Standorte zu definieren. Dazu müssen Sie zunächst ein Protokoll des Telefonstandorts für die letzten 12 Monate erstellen. Sie benötigen also irgendeine Form von Standortdaten (z. B. aus Anmeldeereignissen, wenn sich das Telefon mit einem Mobilfunkmast verbindet, oder möglicherweise genauere Standorte, die von einer App aufgezeichnet oder mit Suchanfragen gesendet werden), verarbeiten diese, um jeder Zeiteinheit einen Standort zuzuordnen, und treffen Annahmen, wie Sie mit Lücken in den Daten umgehen (z. B., wie Sie mit einer Situation umgehen, in der zwei Wochen lang überhaupt keine Daten gesendet wurden – es ist möglich, dass die Person zu Hause geblieben ist (vielleicht, um ein krankes Familienmitglied zu pflegen), aber es ist wahrscheinlicher, dass das Telefon kaputt war und in eine Reparaturwerkstatt geschickt wurde oder dass die Person in den Dolomiten gewandert ist – daher können Sie entscheiden, dass Sie 12 oder 24 Stunden nach dem letzten Signal den Standort auf „unbekannt“ setzen und Zeitspannen mit unbekanntem Standort aus der Analyse ausschließen). Dann müssen Sie die Gesamtzeit, die Sie pro Standort verbracht haben, aggregieren, die drei wichtigsten auswählen und die Entfernung zwischen dem aktuellen Standort des Telefons und jedem der drei wichtigsten Standorte berechnen, um die gewünschte Variable zu ermitteln. Und das ist nicht einmal die komplizierteste Variable, die ich je gesehen habe! Aber sie zeigt drei Dinge: Es macht Spaß, es ist kompliziert (und daher zeitaufwändig), und es beinhaltet eine Menge Annahmen und Ermessensentscheidungen. Denken Sie an den letzten Punkt – hier kommen offensichtlich Vorurteile ins Spiel!
Die Reduktion von Variablen ist für die Spalten der riesigen Datentabelle, mit der Datenwissenschaftler arbeiten, das, was der Ausschluss von Datensätzen für die Zeilen ist: Wir löschen einzelne Variablen (d. h. Spalten – um einen Algorithmus zu erstellen, müssen wir in der Regel alle Daten in einer riesigen Tabelle anordnen, in der jede Beobachtung (z. B. eine Person in der Stichprobe, für die Sie die Haarmenge sowie die prädiktiven Attribute beobachtet haben) eine Zeile und jede prädiktive Variable (entweder ein rohes Attribut, das Sie gesammelt haben, wie z. B. das Alter, oder ein Merkmal, das Sie auf der Grundlage anderer Daten berechnet haben) eine Spalte ist). Dies ist auch ein Schritt, der oft übersprungen wird – wodurch sich Datenwissenschaftler regelmäig auf Glatteis bringen. Viele der in Betracht gezogenen Merkmale sind absolut nutzlos (d. h. sie haben keinerlei Vorhersagewert), während andere zwar vorhersagekräftig, aber überflüssig sind, weil sie anderen Merkmalen sehr ähnlich sind (in der Sprache der Statistiker: hoch korreliert mit diesen sind – ein extremes Beispiel: das Gewicht einer Person in Kilogramm und das Gewicht in Pfund sind genau dieselben Informationen, nur in unterschiedlichen Einheiten ausgedrückt). Wenn diese Variablen in der Stichprobe verbleiben, haben sie keinen Nutzen, können aber allerlei Unheil anrichten – im Extremfall (z. B. bei zwei perfekt korrelierten Variablen wie im Gewichtsbeispiel) können sie das Modellschätzungsverfahren tatsächlich zum Scheitern bringen (was in gewisser Weise der glückliche Fall ist, denn dann merkt es zumindest der Datenwissenschaftler), aber normalerweise spielen sie dem Datenwissenschaftler einfach alle möglichen bösen Streiche, und einige davon führen zu einem verzerrten Modell.
Die Modellschätzung ist der Schritt der eigentlichen Schätzung der Modellkoeffizienten – hier können wir etwa Matrixalgebra für OLS-Regressionen anwenden oder Skripte in einem Statistikpaket ausführen, um einen gradientenverstärkten Entscheidungsbaum mit XGBoost zu erstellen (d. h. ein sehr komplexes Modell mit einem Computerprogramm zu erstellen, das jemand anderes entwickelt hat, so dass wir dies sogar tun können, ohne genau zu wissen, was wir da eigentlich tun…). Das kann eine Menge Spaß machen, vor allem, wenn wir einen ausgefallenen neuen Algorithmus ausprobieren, den wir noch nie zuvor verwendet haben, und die Leistung des resultierenden Modells 0,0001 % besser ist als die des Standardalgorithmus, den wir normalerweise verwenden!
Die Feinjustierung des Modells ist eine Reihe von iterativen Schritten, bei denen der Datenwissenschaftler die ursprünglichen Ergebnisse betrachtet, sie bewertet (z. B. eine unerwünschte Verzerrung oder ein anderes unerwünschtes Verhalten des Modells feststellt) und versucht, das Problem auf eine der folgenden drei Arten zu beheben: Der Datenwissenschaftler kann entweder einen anderen Satz von Zeilen der Daten auswählen (z. B. Konten mit Ein-Cent-Salden nachträglich entfernen), oder die Spalten mit den prädiktiven Merkmalen ändern (z. B. einen logischen Fehler in einer der Variablen beheben), oder einige der Parametereinstellungen des Modellschätzungsverfahrens ändern. Letztere werden auch als Hyperparameter bezeichnet – so wie ein Bäcker die Temperatur und die Luftfeuchtigkeit im Ofen einstellen und die Backzeit anpassen kann, können Sie sich ein Modellschätzungsverfahren als eine Maschine mit ein paar Reglern und Knöpfen vorstellen, mit denen Sie herumspielen können, um bessere Backergebnisse zu erzielen. Ich möchte dies anhand der Schätzung von Entscheidungsbäumen veranschaulichen: Entscheidungsbäume können dazu neigen, sich den Daten zu stark anzupassen (wenn z. B. Ihre Stichprobe für das Haarmodell drei Personen mit Glatze enthält, die alle am 1. März geboren sind, könnte ein übereifriger Entscheidungsbaum zu dem Schluss kommen, dass die Geburt am 1. März ein hervorragender Prädiktor für eine Glatze ist). Eine Möglichkeit, dem entgegenzuwirken, ist die so genannte Bonferroni-Korrektur (sie „erhöht“ im Grunde die Anzahl der Personen mit demselben Attribut, die der Algorithmus sehen will, bevor er glaubt, dass es sich nicht um einen Zufall handelt). Die Bonferroni-Korrektur kann jedoch sehr konservativ sein, so dass man sich stattdessen für die Holm-Bonferroni-Methode oder die Šidák-Korrektur entscheiden kann.¹ Bei vielen Modelltypen sind die möglichen Variationen solcher Hyperparameter nahezu grenzenlos, und leider gibt es keine goldene Regel, diese Hyperparameter so einzustellen, dass sie als universell richtig oder besser als alle anderen Einstellungen angesehen werden können. Das bedeutet, dass das Urteilsvermögen des Datenwissenschaftlers bei der Auswahl dieser Hyperparameter sehr wichtig ist – und eine weitere potenzielle Quelle für Verzerrungen darstellt!
Die Kalibrierung von Modelloutputs und Entscheidungsregeln ist der Schritt, bei dem der rohe Modelloutput (z. B. eine Ausfallwahrscheinlichkeit) in eine Entscheidungsregel für Geschäftsanwendungen umgewandelt wird (z. B. ob ein Kreditantrag genehmigt oder abgelehnt werden soll). Hier kommen viele zusätzliche Überlegungen und Beurteilungen ins Spiel (z. B. wird bei Genehmigungsentscheidungen oft eine Art Rentabilitätskriterium berücksichtigt, was die Zuweisung von Kosten erfordert), was einige sehr philosophische und letztlich willkürliche Entscheidungen nach sich zieht. Und Sie wissen inzwischen, dass es dort, wo Urteile zu fällen sind, auch Voreingenommenheit gibt …
Die Modelldokumentation ist der Schritt, bei dem der Datenwissenschaftler aufschreibt, was er oder sie getan hat, damit andere das Modell verstehen und sich eine unabhängige Meinung dazu bilden können. Die konzeptionelle Validierung und die ordnungsgemäße Verwendung des Modells durch andere sind entscheidend für die Vermeidung von Verzerrungen und hängen von einer angemessenen Modelldokumentation ab. Wenn die Modelldokumentation Lücken oder falsche Darstellungen enthält, wird die Voreingenommenheit des Lesers zum Tragen kommen (z. B. wenn die Modelldokumentation mit einer hohen Vorhersagekraft prahlt, wird dies einen Verankerungseffekt und einen Bestätigungsfehler auslösen, der den Leser davon abhalten kann, klärende Fragen zu stellen, um einige der verborgenen Probleme des Modells aufzudecken).

Das Ergebnis ist ein Algorithmus, der nun in Entscheidungsprozessen eingesetzt werden kann, z. B. bei der Bewilligung eines Kredits, der Alarmierung der Flughafensicherheit vor einem potenziellen Terroristen oder der Empfehlung, mein neuestes Buch zu kaufen.

Schritt 4: Modellvalidierung

Die Modellvalidierung kann informell erfolgen oder, wie im Fall von regulierten Finanzinstituten, ein formeller Geschäftsprozess sein, der von einer speziellen Abteilung des Unternehmens durchgeführt wird. Sie orientiert sich an technischen Inspektionen, die sich in vielen anderen Lebensbereichen bewährt haben. So müssen beispielsweise Autos in vielen Ländern regelmäßig technisch überprüft werden, um sicherzustellen, dass sie noch sicher für den öffentlichen Straßenverkehr sind. Wie Sie in Kap. 7 erfahren werden, ist eine der Hauptursachen für algorithmische Verzerrungen die Voreingenommenheit des Datenwissenschaftlers, und die durch die Modellvalidierung geschaffene unabhängige Prüffunktion kann ein wirksames Gegengewicht zu solchen Vorurteilen darstellen.

Schritt 5: Modellimplementierung

In den meisten Fällen wird ein Modell auf einem anderen Computersystem entwickelt als das System, auf dem die tatsächlichen Geschäftsvorgänge verarbeitet werden. Um das Modell im „wirklichen Leben“ für Geschäftsentscheidungen nutzen zu können (dies wird oft als „Produktion“ bezeichnet), sind zusätzliche Arbeitsschritte erforderlich, die als Implementierung bezeichnet werden. Wenn beispielsweise ein Datenwissenschaftler eine neue Scorecard für die Genehmigung von Kreditkartenanträgen entwickelt hat, muss die Bank den Algorithmus in ihr Kreditentscheidungssystem (IT) hochladen und einen Prozess zur Erfassung der Daten erstellen, die als Eingaben in die Scorecard benötigt werden. Wie Sie in den folgenden Kapiteln sehen werden, kann auch die Art und Weise, wie diese Daten erstellt oder aus anderen Quellen gesammelt werden – und wie das System mit fehlenden oder unsinnigen Werten im Echtbetrieb umgeht –, zu verzerrten Entscheidungen führen; daher muss die Modellimplementierung in Maßnahmen zur Bekämpfung algorithmischer Verzerrungen eingeschlossen werden.

Zusammenfassung

In diesem Kapitel haben Sie sich mit dem gesamten Prozess der Modellentwicklung befasst; auf einer hohen Ebene haben Sie die fünf wichtigsten Schritte bei der Erstellung eines Modells kennengelernt:

Das Modelldesign stellt sicher, dass das Modell sein strategisches Ziel erreicht, indem es das vorherzusagende Attribut, die Grundgesamtheit, die zu verwendeten Vorhersagedaten und die anzuwendende Modellierungsmethodik definiert.
Die Datenaufbereitung stellt geeignete Daten für die Modellentwicklung her, indem sie eine geeignete Stichprobe definiert, Rohdaten sammelt, die Stichprobe in drei Teile für Entwicklung, Test und Validierung aufteilt, eine hohe Datenqualität durch Identifizierung und Bereinigung von Datenproblemen gewährleistet und granulare Daten aggregiert.
Der Modellzusammenbau ergibt den eigentlichen Algorithmus. Dieser Schritt umfasst sieben Teilschritte, nämlich den Ausschluss ungeeigneter Datensätze auf der Grundlage logischer Kriterien, die Entwicklung neuer Variablen, die Eliminierung nutzloser oder redundanter Variablen, eine erste Schätzung der Modellkoeffizienten, ihre iterative Feinjustierung, die Kalibrierung der Modelloutputs und der sie verwendenden Entscheidungsregeln sowie die Dokumentation des Modells.
Bei der Modellvalidierung handelt es sich um einen Governance-Prozess, mit dem die Gebrauchstauglichkeit des Modells unabhängig festgestellt wird.
Bei der Modellimplementierung wird das Modell in die Geschäftsabläufe eingebaut; dies umfasst insbesondere die Einspeisung von Daten in das Modell und die Verknüpfung der Schätzungen des Modells mit Geschäftsentscheidungen.

Die Erörterung dieser fünf Arbeitsschritte hat Sie in die Arbeit des Datenwissenschaftlers und den zur Entwicklung eines Algorithmus mit statistischen Techniken erforderlichen Prozess eingeführt. Ich habe noch nicht zwischen verschiedenen Modellierungstechniken unterschieden, abgesehen von der Anspielung auf unterschiedliche Komplexitätsgrade. Eine Klasse von Modellierungstechniken, von der Sie in letzter Zeit sicher schon viel gehört haben, wird als maschinelles Lernen bezeichnet. Im nächsten Kapitel werde ich mit Fakten und Mythen über maschinelles Lernen aufräumen.

Fußnoten

Dieses Buch soll kein Lehrbuch über Mehrfachvergleiche in der Statistik sein; ich möchte lediglich veranschaulichen, dass selbst scheinbar einfache statistische Methoden unzählige kleine Entscheidungen mit sich bringen, die das Ergebnis beeinflussen können. So ist es auch bei Elektrikern – es klingt einfach, eine Steckdose in der Garage zu beauftragen, aber der Elektriker muss unzählige kleine Entscheidungen treffen, z. B. ob er die gleiche Sicherung wie für Ihren Gefrierschrank verwenden soll oder eine andere, welchen Wert die Sicherung haben soll (d. h. wie viel Ampere sie tragen kann) usw. Wenn jedes Mal, wenn Ihr Schwiegervater in der Garage ein Elektrowerkzeug betätigt, die Sicherung durchbrennt und Ihr Eis in der Gefriertruhe schmilzt, hat Ihr Elektriker bei den Hyperparametern eindeutig eine schlechte Wahl getroffen!