Ein altes Sprichwort lautet: „Garbage in, garbage out“, was bedeutet, dass selbst der beste Algorithmus, der mit Mülldaten gefüttert wird, am Ende Müll ausgibt. Das Gleiche gilt für Verzerrungen. In diesem Kapitel werden wir uns mit den vielen Möglichkeiten befassen, wie mangelhafte Daten zu einem verzerrten Algorithmus führen können. Wie Sie sehen werden, können einige dieser Probleme vom Datenwissenschaftler angegangen werden; andere Probleme müssen tatsächlich von den Personen behoben werden, die die Daten letztendlich erzeugen (z. B. ein Versicherungsvertreter, der Anträge bearbeitet, oder ein Programmierer, der eine Webseite aktualisiert).
Überblick über die durch Daten verursachten Verzerrungen
Es gibt mindestens sechs verschiedene Möglichkeiten, wie Daten zu Verzerrungen in einem Algorithmus führen können. Es ist wichtig, diese Arten von Verzerrungen zu unterscheiden, da sie in verschiedenen Phasen entweder des realen Prozesses, den der Algorithmus zu beschreiben versucht, oder des Modellentwicklungsprozesses entstehen und daher auch die Lösung zur Vermeidung oder Beseitigung jeder Art von Verzerrung unterschiedlich sein wird.
Subjektive (qualitative) Daten, die von Menschen erstellt werden, wie z. B. Restaurantbewertungen, sind von Natur aus voreingenommen; ein besonderer Aspekt dieses Problems ist, dass die Messmethodik (z. B. das Verfahren zur Vergabe einer Bewertung) zu spezifischen Verzerrungen führen kann.
Bei scheinbar quantitativen Daten handelt es sich um Zahlen, die durch einen ähnlichen Prozess generiert werden wie subjektive Daten (z. B. ein Antragsformular, bei dem das Feld „Einkommen“ von einer Verkaufsperson ausgefüllt wird) und daher von denselben Problemen betroffen sein können, auch wenn sie täuschend objektiv aussehen.
Daten, die voreingenommenes Verhalten widerspiegeln, sind oberflächlich betrachtet objektiv, aber dennoch voreingenommen. Jährliche Bonuszahlen scheinen beispielsweise eine objektive Messgröße für die Leistung der Mitarbeiter zu sein, können aber dennoch tiefgreifende geschlechtsspezifische Verzerrungen in der Art und Weise widerspiegeln, wie das Unternehmen Männer und Frauen bewertet.
Traumatisierende Ereignisse sind einmalige Ereignisse, die keine Vorhersage für künftige Ergebnisse sind, aber dennoch eine übermäßige Verzerrung des Algorithmus verursachen.
Konzeptuelle Verzerrungen sind Verzerrungen, die aufgrund spezifischer Modellentscheidungen entstehen und eine verzerrte Darstellung der Realität in der Stichprobe bewirken.
Eine unsachgemäße Datenverarbeitung führt zu Verzerrungen durch Fehler in der Art und Weise, wie die Daten bereinigt, aggregiert oder umgewandelt werden.
Durch subjektive Daten verursachte Verzerrungen
In Kap. 6 haben Sie Vorurteile in der realen Welt in ihrer schlimmsten Form kennengelernt – wenn sie die Realität (d. h. die abhängige Variable, die Ihr Algorithmus vorherzusagen versucht) so beeinflussen, dass sie sich letztendlich bewahrheiten. Doch selbst wenn die abhängige Variable von Vorurteilen unbeeinflusst ist, kann es sein, dass einige der Prädiktoren der Algorithmen (d. h. die unabhängigen Variablen, die wir für die Vorhersage verwenden) verzerrt sind.
Bei der Kreditwürdigkeitsprüfung im Firmenkundenkreditgeschäft werden beispielsweise häufig qualitative Aspekte eines Unternehmens wie die Qualität des Managements beurteilt. Während das Ergebnis, ob ein Unternehmen in der Modellierungsstichprobe mit einem Kredit in Verzug geraten ist oder nicht, objektiv und unvoreingenommen ist, kann die Bewertung der Managementqualität die ganze Bandbreite kognitiver Verzerrungen aufweisen. Viele Banken bitten ihre Mitarbeiter, die Qualität des Managements auf einer Skala wie „sehr gut“, „gut“, „befriedigend“ und „schwach“ zu bewerten. Wenn Vertriebsmitarbeiter diese Bewertung abgeben, werden sie natürlich von einer Bestätigungs- und einer Interessenverzerrung geleitet (sie wollen, dass der Antrag genehmigt wird), und es überrascht nicht, dass die meisten Kunden mit „sehr gut“ bewertet werden. Die einzige Ausnahme, die mir begegnete, war eine australische Bank, bei der die Vertriebsmitarbeiter eine zusätzliche Option hatten: „außergewöhnlich gut“. Das war ein Glücksfall, denn es stellte sich heraus, dass die meisten australischen Managementteams tatsächlich „außergewöhnlich gut“ sind, zumindest in den Augen der Vertriebsmitarbeiter.
Die Geschichte endet hier jedoch nicht – die Bank, von der ich spreche, prüfte solche Kreditanträge manuell, und die Kreditsachbearbeiter „korrigierten“ routinemäßig solche enthusiastischen Bewertungen. Aber wie? Ein Kreditsachbearbeiter erklärte: „Ich schaue mir einfach die Finanzdaten an, und dann ist ganz klar, wie es um die Qualität des Managements steht!“ Ein Quiz für Sie: Wie nennt man die Voreingenommenheit der Kreditsachbearbeiter?1
Wenn solche Verzerrungen eine Variable unbrauchbar machen, würde der Algorithmus sie natürlich als unbedeutend zurückweisen. In vielen Fällen verringert die Verzerrung jedoch lediglich die Aussagekraft der Variablen, so dass solche verzerrten Bewertungen immer noch in den Algorithmus einfließen und diesen beeinflussen können. Teilweise verzerrte Werte können auftreten, wenn einige Mitarbeiter voreingenommener sind als andere oder wenn die Ego-Depletion (die im vorigen Kapitel als einer der kognitiven Verzerreffekte vorgestellt wurde, von denen Datenwissenschaftler betroffen sein können) vorurteilsgetriebene Bewertungen auslöst. Tatsächlich habe ich in meiner eigenen Forschung Hinweise darauf gefunden, dass Kreditsachbearbeiter ihr Beurteilungsverhalten ändern, wenn geistige Ermüdung einsetzt, was darauf hindeutet, dass die von ihnen gesammelten Daten insbesondere dann Verzerrungen aufweisen können, wenn sie zwei oder mehr Stunden lang keine Pause gemacht haben.
Auch Dropdown-Felder („Feature Columns“ in der Google-Terminologie) und andere Strukturen qualitativer Daten, die durch die zur Generierung oder Erfassung solcher Daten verwendeten Tools eingeführt werden, können zu Verzerrungen führen. Eine massive Verzerrung kann durch Gruppierungen hervorgerufen werden. Stellen Sie sich beispielsweise eine Zeta-Reticulan-Bank in unserer imaginären Welt vor, die das „soziodemografische“ Segment durch die Zuweisung eines Attributs erfasst, aber Marsianer brutal mit Drogenabhängigen und Kriminellen in einer Kategorie mit der Bezeichnung „Außenseiter“ zusammenfasst. Wenn andere Kategorien eine hohe Vorhersagekraft haben, wird diese unglückliche Variable wahrscheinlich in den Algorithmus einfließen, aber jetzt würde sie den Marsmenschen einen echten Nachteil bringen, so dass sie es schwer haben werden, einen Kredit zu bekommen.
Ein Beispiel für einen subtileren Effekt, der zu Verzerrungen führt, sind nicht geschlechtsspezifische Bezeichnungen für Berufe (wie sie in vielen Sprachen üblich sind). Dies könnte die Klassifizierung von Grenzfällen verzerren, wenn Mitarbeiter eine Freitextantwort manuell einer Kategorie zuordnen. Stellen Sie sich vor, wie „Physiotherapeut“ in ein unvollkommenes Kategorisierungssystem eingeordnet werden könnte, in dem nur „Arzt“ und „Krankenschwester“ als medizinische Berufe zur Verfügung stehen – entsprechend den Geschlechterstereotypen könnte die Mehrheit der männlichen Physiotherapeuten mit Ärzten und Chirurgen gruppiert werden, während die Mehrheit der weiblichen Physiotherapeuten als Krankenschwestern eingestuft würde.
Verzerrungen durch scheinbar quantitative Daten
Sie haben soeben gesehen, wie subjektive Urteile über qualitative Merkmale verzerrt sein können. Wären quantitative Daten wie das Jahreseinkommen eines Bewerbers von Natur aus frei von solchen kognitiven Verzerrungen?
Oft trügt die theoretisch objektive Definition solcher Datenfelder: Fast niemand kennt sein tatsächliches Einkommen. Wissen Sie noch genau, wie viel von Ihrem letztjährigen Bonus nach Steuern übrig war? Behalten Sie den Überblick über alle anderen Einkommenspositionen, einschließlich der Zinsen, die Sie erhalten, Nebenleistungen wie Essensgutscheine, die Sie getrennt von Ihrem Gehalt erhalten, und alle Trinkgelder, die Ihnen Ihre zufriedenen Kunden geben?
Wenn solche Informationen erhoben werden, sind die Antworten daher sehr oft Schätzungen und damit verzerrt. Und weil die Antworten verzerrt sind, laden sie auch zu Interessenverzerrungen ein: Natürlich haben viele Antragsteller ein Interesse daran, einen hohen Kredit zu bekommen, und wünschen sich daher, dass ihr Einkommen etwas höher ist als es tatsächlich ist. Dan Ariely hat umfangreiche Untersuchungen über Unehrlichkeit durchgeführt und festgestellt, dass Menschen systematisch lügen. Wir halten uns zurück und verknüpfen unsere Lügen in der Regel mit kleinen Geschichten, die „erklären“, wie es zu diesem unglücklichen „Fehler“ in unseren Berechnungen kam, falls wir erwischt werden.2 Infolgedessen werden Zahlen aufgerundet, und ein Monat mit einem überdurchschnittlichen Einkommen wird plötzlich zur Norm (und das Jahreseinkommen wird schnell geschätzt, indem das Einkommen dieses Spitzenmonats mit 12 multipliziert wird).
Das Fazit ist, dass die Art und Weise der Datenerhebung zu Verzerrungen führen kann. Solche Daten sind in der Regel immer noch richtungsweisend und können daher immer noch als wichtiger Faktor in einen Algorithmus einfließen. Wenn nach der Implementierung des Algorithmus weiterhin derselbe Datenerhebungsprozess verwendet wird, können die verzerrten Eingaben schließlich die Vorhersagen verfälschen (z. B. neigen Berufe mit vielen Trinkgeldern besonders dazu, ihre Einkommensschätzungen aufzublähen; vermutlich würden Finanzbeamte und Buchhalter mit festen Gehältern wahrheitsgetreuere Schätzungen ihres eigenen Einkommens abgeben und folglich vom Algorithmus benachteiligt werden).
Sobald der Algorithmus eine sehr direkte Verbindung zwischen den eingegebenen Daten und einem gewünschten Ergebnis (z. B. Genehmigung eines Kreditantrags) herstellt, können außerdem Interessenverzerrungen ausgelöst werden. Ich habe mir einmal ein Histogramm der von Vertriebsmitarbeitern erfassten Einkommensdaten angesehen und vier diskrete Spitzen in den Werten gefunden. Woran lag es, dass so viele Personen genau 500, 800, 1200 oder 1700 Währungseinheiten verdienten?3 Ich entdeckte, dass der bestehende Algorithmus der Bank eine Stufenfunktion hatte – Antragsteller erhielten 0 Punkte für ein Einkommen unter 500, 20 Punkte für 500–799, 50 Punkte für 800–1199 usw. – und die Vertriebsmitarbeiter hatten den Prozess offenbar durchschaut und rundeten großzügig auf, wenn das tatsächliche Einkommen etwas unter einem der Schwellenwerte lag, um dem Antragsteller zu einer etwas höheren Punktzahl zu verhelfen.
Durch traumatisierte Daten verursachte Verzerrungen
Dieser Aspekt einer durch die Datenquelle verursachten Verzerrung verdient ebenfalls eine eingehendere Diskussion. Aus der Psychologie wissen wir, dass das Verhalten eines Kindes, das ein traumatisierendes Ereignis erlebt, für den Rest seines Lebens beeinflusst werden kann. Wenn ein Kind zum Beispiel von einem Hund gebissen wird, kann es eine lebenslange Angst vor unseren vierbeinigen Freunden entwickeln. Das Gleiche kann mit Daten passieren.
Stellen Sie sich vor, Sie arbeiten immer noch an einer Scorecard für Kreditkartenanträge. Sie haben historische Daten gesammelt, die alle im Jahr 2016 ausgegebenen Kreditkarten umfassen, und Sie haben verfolgt, bei welchen Kreditkarten es in den 12 Monaten nach der Ausgabe zu einem Zahlungsausfall gekommen ist. Anfang 2017 ereignete sich leider eine große Naturkatastrophe in der für Zitrusplantagen wichtigsten Region des Landes; ein schwerer Wirbelsturm und anschließende Überschwemmungen brachten das Leben zum Stillstand, zerstörten die meisten Zitrusplantagen sowie Tausende von Häusern und Geschäftsgebäuden und zwangen sogar Ihre Bank, viele ihrer Filialen vorübergehend zu schließen. Natürlich waren viele Menschen nicht in der Lage, ihre Kreditkartenrechnungen zu begleichen – einige hatten einfach zwei Monate lang keinen Zugang zu einem Scheckbuch, während andere die Quelle ihres Lebensunterhalts zerstört sahen und noch ein Jahr später mittellos waren. Wie würde sich dies auf Ihren Algorithmus auswirken?
Ihre Daten hätten natürlich viele oder vielleicht sogar die meisten der aus dieser Region stammenden Kreditkarten als ausgefallen gekennzeichnet. In dieser Stichprobe würde jeder Hinweis darauf, dass ein Antrag aus dieser Region stammt – beispielsweise ein Hinweis darauf, dass der Antragsteller in der Plantagenindustrie arbeitet, oder, wenn die relevanten gesetzlichen Vorschriften dies zulassen, sogar die Postleitzahl – auf eine hohe Ausfallwahrscheinlichkeit hindeuten. Die Katastrophe wäre also tief in die Logik des Algorithmus eingebrannt. Was würde der Algorithmus tun, wenn im nächsten Jahr ein Antragsteller aus dieser Region einen Kredit beantragen würde? Wie bei einem Menschen mit einem Kindheitstrauma würde der Algorithmus in alle Ewigkeit bei einem Hinweis auf diese Region einen großen Punkteabzug machen und damit implizit davon ausgehen, dass die Katastrophe in dieser Region nie aufgehört hat – und daher die meisten oder alle Anträge ablehnen.
Andere Beispiele für einmalige Ereignisse, die Daten traumatisieren können, sind große Betrugsfälle (die oft entweder von einer bestimmten Filiale aus oder über einen bestimmten Vertriebskanal begangen werden) und technologiebezogene Probleme, die einen Teil der Daten verzerren (einschließlich Cyberangriffe, die nur eine bestimmte Untergruppe von Kunden betreffen).
Ein verwandtes Thema sind die so genannten Ausreißer. Während Ereignisse viele Fälle gleichzeitig betreffen (was dem Ereignis so viel Gewicht verleiht), handelt es sich bei Ausreißern um Einzelfälle, die so weit von der Norm abweichen (z. B. ein staatliches Monopol, das 80 % aller Einnahmen in einer bestimmten Branche ausmacht), dass sie einen übergroßen Einfluss auf die Gleichung haben. Statistiker bezeichnen solche Ausreißer auch als Leverage Points. Sie führen dazu, dass der Algorithmus auf diesen einen Fall ausgerichtet wird (wenn Sie blumige Bezeichnungen mögen, können Sie diese Ausrichtung als Sunflower Management Bias bezeichnen – sie bezieht sich in der Regel auf Menschen, die sich die Ansichten der ranghöchsten Person in ihrem Umfeld aneignen, da diese ranghohe Person die Aufmerksamkeit ähnlich auf sich zieht wie die Sonne, nach der sich die Sonnenblumen ausrichten). Hinter diesem Effekt verbirgt sich die Art und Weise, wie statistische Algorithmen Schätzfehler quantifizieren (die sie zu minimieren versuchen) – wenn ein einzelner Fall numerische Werte aufweist, die sehr, sehr weit vom Durchschnitt entfernt sind, verleiht ihnen dieser Abstand eine extreme Hebelwirkung bei der Berechnung des gesamten Schätzfehlers, und der Algorithmus sagt im Grunde (und ich übertreibe ein wenig, um einen dramatischen Effekt zu erzielen): „Wir können uns in diesem einen Fall nicht irren, egal, was die anderen Datenpunkte sagen!“
Stellen Sie sich zum Beispiel vor, dass bei Ihrer Haarschätzung aus Kap. 3 ein Gorilla-Mann (d. h. jemand mit extrem vielen Haaren) in Ihre Stichprobe geraten ist. Nehmen wir an, er spricht Italienisch, und ein sehr ausgeklügelter Algorithmus wirft Ihren Gorilla-Mann mit ein paar anderen Italienern in einen Topf. So entsteht das neue Vorurteil, dass Italiener viele Haare haben – und voilá, ein weiteres mythisches Vorurteil ist geboren!
Konzeptionelle Verzerrungen
Haben Sie schon einmal eine Seite in einem Buch fotokopiert oder fotografiert, um sie später zu lesen, und dann festgestellt, dass Sie versehentlich einen Teil der Seite abgeschnitten und damit einen wichtigen Teil der Geschichte verpasst haben? Konzeptionelle Fehler wirken sich auch auf Daten aus. Irgendwie „schneidet“ das Modelldesign versehentlich einen Teil der Daten ab, und die daraus resultierenden Lücken in den Daten verzerren schließlich den Algorithmus.
So wie Sie ein Bild oben oder unten, links oder rechts abschneiden können, lassen sich auch Daten auf verschiedene Weise abschneiden. Die drei Möglichkeiten zum Abschneiden von Daten sind Zeilen, Spalten und Zeit.
Zeilen werden abgeschnitten, wenn einige Instanzen (Beobachtungen) in der realen Population systematisch ausgelassen werden. Im vorangegangenen Kapitel haben Sie das Beispiel einer Untersuchung über Drogenabhängige kennengelernt, bei der aufgrund des Verfügbarkeitsbias der Forscher Drogenabhängige außerhalb der klinischen Population ignoriert wurden.
In vielen Fällen ist jedoch die gesamte Grundgesamtheit in einer Datenbank verfügbar (z. B. im Kontensystem der Bank), aber aufgrund eines konzeptionellen Fehlers in der Abfragelogik gehen bei der Extraktion von Daten aus einer Datenbank dennoch einzelne Beobachtungen verloren. Wenn Sie beispielsweise Ihre Stichprobenerstellung mit allen heute aktiven Kreditkarten beginnen und dann diejenigen herausfiltern, die vor 1–2 Jahren ausgegeben worden sind, entgehen Ihnen systematisch Kreditkarten, die vor 1–2 Jahren ausgegeben, aber seitdem gekündigt worden sind.
Spalten sind betroffen, wenn bestimmte unabhängige Variablen fehlen oder beeinträchtigt sind. Ein typisches Problem ist das Überschreiben historischer Werte mit dem neuesten Wert. Ich habe beispielsweise einmal mit einem Start-up-Unternehmen zusammengearbeitet, das bestimmte Datenfelder aus der Social-Media-Präsenz einer Person verkaufte, z. B. den Facebook-Status oder die Tweets der Person. Das Unternehmen war sehr daran interessiert, dass ich seine Daten als Input für Kredit-Scorecards teste, aber mir wurde klar, dass sie sich nicht des Unterschieds zwischen historischen und aktuellen Werten bewusst waren. Sie archivierten keine Daten und konnten mir daher nur den aktuellen Facebook-Status einer Person und die fünf letzten Tweets nennen. Um diese Daten für eine Kreditwürdigkeitsprüfung zu verwenden, muss ich jedoch nicht wissen, dass die Person vor einer Woche bekannt gegeben hat, dass sie „gerade wieder bei Mama eingezogen“ ist. Stattdessen muss ich wissen, dass sie vor 23 Monaten (als sie den Kredit beantragte, den ich ihr gewährte und später abschreiben musste) in den sozialen Medien verkündet hatte, dass sie „gerade das coolste Haus aller Zeiten gekauft habe“. Dieses spezielle Problem zu übersehen, kann tödlich sein – aktualisierte Datenfelder können zu einem so genannten „hindsight bias“ führen, also einer Rückblicksverzerrung (d. h. mein Algorithmus verwendet Informationen, die erst bekannt sind, wenn das vorherzusagende Ereignis eingetreten ist). Der Hinweis darauf, dass Kunden, die ihren Freunden in einem Jahr erzählen werden, dass sie gerade wieder bei Mama eingezogen sind, mit größerer Wahrscheinlichkeit einen Kredit, den ich ihnen heute gebe, bis dahin nicht zurückzahlen werden, ist nicht nur ziemlich offensichtlich, sondern auch nutzlos. Da ich nicht weiß, was die Person in einem Jahr tweeten wird, ist es unmöglich, diese Information heute für die Kreditwürdigkeitsprüfung zu verwenden.
Bei der Verfolgung des Verhaltens im Zeitverlauf kommt auch die Zeit ins Spiel. Probleme entstehen, wenn die Beobachtungszeiträume am Anfang oder Ende der Stichprobe abgeschnitten werden. Bei der Kreditmodellierung betrachten einige Datenwissenschaftler beispielsweise alle Kredite, die in einem bestimmten Zeitraum (z. B. von Januar 2010 bis Dezember 2017) vergeben wurden, und markieren einfach für jeden Kredit, ob es jemals ein Ausfallereignis gab. Inwiefern könnte dies ein Problem darstellen? Bei einem Darlehen mit einer Laufzeit von fünf Jahren, das im Jahr 2010 aufgenommen wurde, haben Sie die gesamte Laufzeit des Darlehens in der Stichprobe und haben das Darlehen daher implizit fünf Jahre lang verfolgt, bis es 2015 entweder zurückgezahlt oder abgeschrieben wurde. Für ein fünfjähriges Darlehen, das im Dezember 2017 vergeben wurde, haben Sie jedoch nur eine sehr kurze Historie – wenn Sie also diese Analyse im Dezember 2018 durchgeführt haben, betrug Ihr sogenannter Realisierungszeitraum nur ein Jahr. John Maynard Keynes erinnert uns daran, dass „wir auf lange Sicht alle tot sind“ – wenn wir also Kredite über fünf Jahre hinweg verfolgen, beobachten wir natürlich mehr Ausfallereignisse als wenn wir dieselben Kredite über nur 12 Monate hinweg beobachten. Infolgedessen deutet die Stichprobe nun darauf hin, dass Kredite aus den Jahren 2010–2013 sehr viel riskanter sind als Kredite aus dem Jahr 2017. Alles, was mit dem Jahr der Kreditvergabe korreliert, wird nun auch zur Vorhersage des Risikos, da es ein Proxy für den Zeitpunkt der Kreditvergabe ist – und eine neue Verzerrung ist in den Daten entstanden.
Verzerrungen durch unsachgemäße Datenverarbeitung
Die vielleicht tragischste Situation entsteht schließlich, wenn eine ursprünglich unverzerrte Stichprobe aufgrund einer unsachgemäßen Datenverarbeitung verzerrt wird.
Ein Beispiel ist die verzerrende Datenbereinigung. Wir haben bereits das Problem der „immateriellen Ausfälle“ erörtert, bei denen aufgrund eines Rundungsproblems ein winziger Betrag von z. B. 0,01 € im Buchhaltungssystem als Kreditsaldo verbleibt, nachdem der Kunde die letzte Rate gezahlt hat, und nach 90 Tagen wird dieser „überfällige“ Saldo als Ausfall gekennzeichnet. Es ist gute Praxis, solche unwesentlichen Ausfälle aus der Stichprobe zu eliminieren. Aber könnte da nicht ein kleiner Teufel im Detail lauern?
In der Tat, ja. Zinsberechnungen sind deterministisch. Daher gibt es bestimmte Kombinationen von Darlehensbeträgen, Ausfertigungsdatum und Laufzeit des Darlehens, bei denen, wenn der Kunde alle Zahlungen pünktlich leistet, am Ende immer ein Saldo von 0,01 € übrig bleibt. Wenn der Datenwissenschaftler unwesentliche Ausfälle „eliminiert“, indem er die Datensätze buchstäblich löscht, würde er am Ende alle guten Konten für bestimmte Kombinationen von Darlehensmerkmalen löschen – und die einzigen in der Stichprobe verbleibenden Darlehen mit denselben Merkmalen sind echte Ausfälle. Infolgedessen würden diese Merkmale nun zu einem „perfekten“ Prädiktor für einen Teil der Ausfälle.
In diesem Beispiel wäre es einfach, unwesentliche Ausfälle zu „eliminieren“, indem man den Gut/Schlecht-Indikator mit der Bezeichnung „zurückgezahlt“ überschreibt. Manchmal befinden sich Datenwissenschaftler jedoch in einer Zwickmühle, und einen Ansatz zur Datenbereinigung zu finden, der keine Verzerrungen mit sich bringt, kann eine gewaltige Herausforderung sein.
Eine ganz andere Art der fehlgeschlagenen Datenbereinigung sind so genannte stille Fehler („silent failures“). Diese treten auf, wenn eine veraltete Tabelle für das Mapping oder die Umwandlung bestimmter Daten verwendet wird. Sie könnten zum Beispiel einen Algorithmus entwickeln, um Lebensläufe von Stellenbewerbern automatisch zu bewerten. Der Name der Universität, die der Bewerber besucht hat, könnte offensichtlich eine wichtige Variable sein (ungeachtet unserer früheren Überlegungen, dass es sich dabei nur um einen groben Ersatz für etwas anderes handeln könnte), und Sie könnten ihn in einen numerischen Wert umwandeln, indem Sie ein von einer dritten Partei bereitgestelltes Universitätsranking verwenden. Dies führt zu einem Datenaufbereitungsschritt, bei dem die Universität durch ihren Rang (eine Ordnungszahl) abgebildet wird.
Sobald dieser Algorithmus implementiert ist, sollten solche Tabellen regelmäßig aktualisiert werden, insbesondere wenn sich die Ranglisten im Laufe der Zeit ändern – andernfalls würde Ihr Algorithmus auf ewig bestimmte Schulen bevorzugen oder benachteiligen, obwohl diese Schulen im Laufe der Zeit in der Rangliste auf- oder absteigen und möglicherweise sogar die Position wechseln könnten.
Zusammenfassung
Einige Daten sind qualitativer Natur und werden daher in der Regel subjektiv von Menschen erstellt; dies führt zu Verzerrungen bei bestimmten Variablen.
Einige Daten sind quantitativ oder anderweitig objektiv definiert, aber der Prozess zur Ermittlung ihres Wertes enthält dennoch subjektive Elemente; solche Daten können ebenfalls menschliche Voreingenommenheit widerspiegeln.
Einige Daten sind sowohl quantitativer Natur als auch durch ein objektives Verfahren mit vollständiger Integrität erhoben worden, aber die gemessenen Werte spiegeln dennoch eine Verzerrung in einem zugrunde liegenden Prozess oder Phänomen wider.
Einige Daten sind durch ein traumatisierendes Ereignis beeinflusst, das zu einer Verzerrung der Daten führt.
Konzeptionelle Mängel im Stichprobenverfahren führen zu Verzerrungen, indem bestimmte Zeilen, Spalten oder Zeiträume in der Stichprobe systematisch ausgelassen werden.
Eine unsachgemäße Datenverarbeitung führt zu Verzerrungen durch statistische oder numerische Artefakte.