Ein Motto unserer Zeit könnte lauten: „Daten sind das neue Gold“ – allerdings glänzen sie nur, wenn sie rein und frei von Schmutz sind. Verzerrte Daten können tödlich verunreinigt und damit wertlos sein. Ein Beispiel: Eine Steuerbehörde bat mich einmal um Hilfe bei der Entwicklung eines Algorithmus, der Zollinspektoren zu jenen Containern im Hafen führen sollte, die am ehesten Schmuggelware enthielten. Das Projekt konnte nicht durchgeführt werden, weil die einzigen Daten, die zur Verfügung standen, aus einer sehr begrenzten Anzahl von Zollkontrollen stammten, die die Beamten im vergangenen Jahr durchgeführt hatten. Das Problem: Die Zollinspektoren hatten die zu kontrollierenden Container ausgewählt und waren in der Durchführung der Kontrollen völlig frei (z. B. konnten Sie sich darauf beschränken, den ersten Karton zu öffnen, der ihnen in die Hände fiel, und die Sendung als „Louis Vuitton Croisette-Handtaschen“ zu akzeptieren, weil die Seesäcke mit einem „Luis Vitton“-Etikett ähnlich genug schienen, oder sie konnten den Container vollständig entleeren und die L’s, O’s und T’s des Louis Vuitton-Stempels von zwei Dutzend Taschen sorgfältig überprüfen, da sie wussten, dass Abweichungen bei diesen Buchstaben zu den häufigen Erkennungsmerkmalen für gefälschte Taschen gehören).
Was wäre passiert, wenn ich diese Daten verwendet hätte? Die gründlichen Inspektoren hätten offensichtlich viel mehr Schmuggelware gefunden, so dass sie eine starke Verzerrung in die Daten eingebracht hätten. Bei dem Versuch, vorherzusagen, wo Schmuggelware zu finden ist, hätte mir der Algorithmus stattdessen gesagt, welche Container in der Vergangenheit am ehesten von „guten“ Inspektoren kontrolliert worden waren. Container mit Schmuggelware, die durch halbherzige Kontrollen unentdeckt blieben, würden dem Algorithmus hingegen als in Ordnung erscheinen, so dass er die Kontrolleure in Zukunft von solchen Containern fernhalten würde.
Schmuggler wissen natürlich, dass sie in einigen Häfen (vielleicht sogar während bestimmter Schichten) bessere Chancen haben, durch den Zoll zu schlüpfen, und neigen daher dazu, ihre Sendungen entsprechend zu lenken. Mein voreingenommener Algorithmus würde ihnen nun direkt in die Hände spielen, indem er vorschlägt, die Kontrollen in diesen Häfen und während dieser Schichten noch mehr zu reduzieren (weil sie in der Vergangenheit nicht viel gebracht haben) und stattdessen noch mehr Ressourcen auf die Häfen zu konzentrieren, die in der Vergangenheit gut kontrolliert wurden. Daher habe ich der Zollbehörde dringend davon abgeraten, einen Algorithmus auf der Grundlage der verfügbaren Daten zu entwickeln.
Die Stichprobe muss zufällig sein – ein Container, bei dem ich es für sehr unwahrscheinlich halte, dass er Schmuggelware enthält, muss mit der gleichen Wahrscheinlichkeit kontrolliert werden wie ein Container, bei dem ich mir sicher bin, dass er Schmuggelware enthält.1 (Es erübrigt sich zu sagen, dass Sie die beste Stichprobe von allen haben, wenn Sie alle Container kontrollieren können).
Jede Kontrolle muss nach demselben strengen Verfahren durchgeführt werden, so dass jede Art von Schmuggelware bei jeder Kontrolle die gleiche Wahrscheinlichkeit hat, entdeckt zu werden, unabhängig davon, wer sie durchführt.
- Bevor neue Daten gesammelt werden, ist es sowohl notwendig als auch sinnvoll, eine standardisierte „Best Practice“-Inspektionsroutine zu definieren. Wie dies zu bewerkstelligen ist, wäre wirklich ein eigenes Buch wert – aber kurz gesagt, so könnte dies aussehen:
Sammeln Sie bei Ihren besten Inspektoren Erkenntnisse darüber, welche Inspektionstechniken am effektivsten sind (z. B. erfahren Sie vielleicht, dass einige Inspektoren inoffizielle Spickzettel für jede größere Marke von Designer-Handtaschen haben, in denen aufgelistet ist, welche Details am ehesten auf Fälschungen hinweisen).
Nutzen Sie deren kollektives Wissen, um aus allen gesammelten Ideen eine überschaubare Anzahl (z. B. 10 bis 25) spezifischer Arbeitsschritte zu priorisieren, die die Standardroutine Ihres Best-Practice-Ansatzes für die Zukunft definieren werden (dies kann kontextspezifische Punkte enthalten, die nur auf bestimmte Arten von Sendungen anwendbar sind, oder Sie können sogar je nach Sendungskategorie völlig unterschiedliche Ansätze haben).
Definieren Sie für jeden Arbeitsschritt, wie er am besten auszuführen ist, um menschliche Vorurteile zu vermeiden (einschließlich der Ego-Depletion durch geistige Ermüdung).
Anstatt zu versuchen, eine ganze Armee von Mitarbeitern an der Front zu mobilisieren (die von den Vorzügen Ihres neuen Konzepts überzeugt, in seiner Ausführung geschult und auf seine Einhaltung hin überwacht werden müssten), ist es oft viel realistischer, ein kleines Team von Inspektoren auszubilden, die Ihr neues Konzept unter strenger Aufsicht an einer sorgfältig ausgewählten Stichprobe von Sendungen durchführen.
Meine Hauptaussage hier ist, dass die Generierung unverzerrter Daten im Wesentlichen eine Managementaufgabe ist, die nur am Rande von einem Datenwissenschaftler technisch begleitet wird. Wenn Ihre Zollinspektoren Ihrem glorreichen neuen standardisierten Ansatz nicht folgen, weil ihre Vorurteile die Oberhand gewinnen („Warum sollte ich meine Zeit mit Sendungen von Zeta-Reticulanern verschwenden – es sind immer die Marsmenschen, die das Zeug schmuggeln“, werden sie vielleicht murren), werden Sie ein Déjà-vu erleiden und genauso verzerrte Daten erhalten wie zuvor.
Natürlich ist dieses Beispiel für eine Zollkontrolle eher ein Worst-Case-Szenario. Bei vielen Entscheidungsprozessen werden Sie feststellen, dass es viel einfacher ist, sowohl unverzerrte Messungen der Ergebnisse zu erhalten als auch echte Zufallsstichproben zu ziehen. Bei der Kreditwürdigkeitsprüfung beispielsweise ist es am besten, wenn der Computer, auf dem Ihr Algorithmus läuft, nach dem Zufallsprinzip die Anträge auswählt, die genehmigt werden, unabhängig davon, was Ihr Scoring-Modell sagt (so entsteht eine echte Zufallsstichprobe). Das Ergebnis wird objektiv dadurch bestimmt, ob der Kunde den Kredit zurückzahlt oder nicht – ohne jegliche Subjektivität.
Eine solche Kreditstichprobe ist natürlich teuer (Sie würden mit einer ziemlich hohen Zahl von Ausfällen rechnen, und insgesamt könnte die Stichprobe Geld vernichten, weil Sie mehr verlieren, als Sie durch Zinsen zurückerhalten), und Sie werden daher die Größe der Stichprobe sorgfältig auf das Minimum beschränken, das Ihr Datenwissenschaftler benötigt, um den Algorithmus zu verbessern (normalerweise führen meine Kunden Tests mit jeweils 500 bis 2000 Krediten durch). Sie können auch unnötige Verluste vermeiden, indem Sie Antragsteller ausschließen, von denen Sie sicher sind, dass sie nicht kreditwürdig sind, wie z. B. Antragsteller, die bereits bei anderen Banken in Verzug sind. Trotz seiner Kosten ist dieser Ansatz jedoch der Goldstandard für die Gewinnung des neuen Goldes – unverzerrte Daten.
Und um dynamisch entstehende Verzerrungen zu bekämpfen, ist es entscheidend, nicht nur einmalig unverzerrte Daten zu generieren, sondern dies als regelmäßige Praxis in die Art und Weise einzubinden, wie Sie Ihr Geschäft „im Normalbetrieb“ („business as usual“) betreiben. Viele Situationen führen zu versteckten Verzerrungen. Wenn eine Bank beispielsweise ein bestimmtes Kundenprofil ablehnt, erzeugt sie keine Daten, die den Algorithmus widerlegen würden (d. h. es gibt keinen Datensatz über die Kundin, der zeigt, dass sie den beantragten Kredit zurückgezahlt hätte), und es gibt möglicherweise auch keine externen Daten für eine korrekte Beurteilung (z. B. wenn alle Banken sich weigern, Marsmenschen Geld zu leihen, gibt es in der Kreditauskunftei keine Belege dafür, dass Marsmenschen je ihre Kredite zurückgezahlt hätten). Nur die regelmäßige Generierung unvoreingenommener Daten über Marsmenschen sorgt dafür, dass Ihr Algorithmus ehrlich bleibt – und dadurch auch Geschäftsmöglichkeiten zur Vergabe rentabler Kredite an kreditwürdige Marsmenschen erkennt.
Zusammenfassung
Achten Sie beim Kauf einer Louis Vuitton-Tasche auf die L’s, O’s und T’s der Ledermarke, um sicherzustellen, dass es sich nicht um eine Fälschung handelt.
Leicht verfügbare Daten für Modellierungszwecke können tödlich verzerrt sein, und die einzige Möglichkeit, unverzerrte Daten zu erhalten, besteht in einer sorgfältigen Prozessumgestaltung oder in der Durchführung eines Pilotprojekts, das eine völlig unverzerrte Datenerhebung vorsieht.
Um unverzerrte Daten zu erhalten, müssen die Daten entweder alle Fälle (d. h. die gesamte Population) oder eine echte Zufallsstichprobe umfassen, und die Bewertung des Ergebnisses muss für alle Fälle einem einheitlichen, standardisierten Ansatz folgen.
Wenn Menschen an der Generierung oder Erhebung der Daten beteiligt sind, ist die Durchführung einer solchen unvoreingenommenen Datenerhebung eine Herausforderung, da sie die vollständige Befolgung durch die Mitarbeiter an der Front erfordert. Daher ist es oft am besten, eine Pilotstudie mit einer ausgewählten Gruppe von Mitarbeitern an der Front und einer sorgfältig zusammengestellten Stichprobe durchzuführen.
Automatisierte Verfahren hingegen eignen sich für regelmäßige Versuche mit völlig zufällig ausgewählten Fällen, um den Algorithmus zu hinterfragen und kontinuierlich zu verbessern.
Und nur Unternehmen, die die regelmäßige Generierung frischer, unvoreingenommener Daten in ihre „Business as usual“-Aktivitäten einbinden, können sicherstellen, dass ihre Goldgrube an Daten niemals durch Vorurteile verunreinigt wird.