Sie haben wahrscheinlich schon von maschinellem Lernen gehört – es ist zu einem Schlagwort geworden, das mit allem in Verbindung gebracht wird, von utopischen Paradiesen, in denen maschinelles Lernen in der Lage zu sein scheint, fast jedes Problem an einem Tag zu lösen, bis hin zu Szenarien, in denen maschinelles Lernen mit schrecklichen Vorurteilen in Verbindung gebracht wird, die Menschen aller Schattierungen unterdrücken.
In Wirklichkeit ist maschinelles Lernen viel bescheidener – es ist eines von vielen Werkzeugen, die einem Datenwissenschaftler zur Verfügung stehen. Eigentlich gibt es diese Methode schon seit Jahrzehnten; erst in jüngster Zeit ist es jedoch viel billiger geworden, leistungsstarke Computer zu kaufen, die in der Lage sind, fortschrittliche maschinelle Lernwerkzeuge auszuführen, und maschinelles Lernen ist auch viel zugänglicher geworden, weil Computerprogramme vereinfachte Versionen des maschinellen Lernens für jeden verfügbar machen, der in der Lage ist, eine Taste auf einem Computer zu drücken.
In diesem Kapitel werde ich erörtern, welches Problem das maschinelle Lernen zu lösen versucht, wie es dies tut und wie es im Vergleich zu anderen statistischen Techniken, die Datenwissenschaftlern zur Verfügung stehen, abschneidet. Dieses Kapitel richtet sich daher wirklich an Anfänger, sodass Datenwissenschaftler, die mit maschinellem Lernen vertraut sind, direkt zum nächsten Kapitel übergehen können.
Ziele des maschinellen Lernens
Nichtlineare Transformationen sind oft erforderlich, um die Beziehung zwischen einem Prädiktor und dem Ergebnis angemessen zu beschreiben. Ich habe bereits erwähnt, dass das Alter keinen einheitlichen Einfluss auf die Anzahl der Haare einer Person hat. In der frühen Kindheit könnte man erwarten, dass die Anzahl der Haare von Geburt an zunimmt; im Erwachsenenalter könnte man erwarten, dass die Anzahl der Haare mehr oder weniger konstant bleibt; und erst im hohen Alter würde man erwarten, dass die Anzahl der Haare schnell abnimmt. Eine quadratische Transformation des Alters und ein hyperbolischer Kosinus des Alters sind Beispiele für neue, vom Alter abgeleitete Merkmale, die so etwas wie eine U-Form darstellen; mit einer U-förmigen Variablen können wir eine Beziehung konstruieren, bei der die „Haarspitze“ in einem bestimmten Alter erreicht wird, z. B. mit 25 Jahren. Zum Beispiel,

Untersegmente sind Gruppen von Personen innerhalb unserer Grundgesamtheit, die eine unterschiedliche Behandlung erfordern. Unsere Stichprobe umfasst zum Beispiel sowohl Männer als auch Frauen. Es scheint, dass Männer im Alter eher eine Glatze bekommen als Frauen; die Auswirkung des Alters auf die Anzahl der Haare kann daher vom Geschlecht abhängen. Eine einfache Möglichkeit, dies in unserem Algorithmus zu erfassen, ist ein so genannter Interaktionseffekt: Wir führen eine vierte Variable ein, die durch Multiplikation einer Schaltervariable für Geschlecht (0 für Frauen, 1 für Männer) mit dem Alter entsteht:

Zusätzliche Daten könnten entscheidend sein, um die Genauigkeit unserer Vorhersagen zu verbessern. Die Eigenschaften des Haars scheinen stark von den Genen beeinflusst zu werden. Eine Idee wäre also, die Anzahl der Haare von Mutter und Vater in den Algorithmus aufzunehmen. Aber warum hier aufhören – warum nicht die detaillierte Struktur des Genoms jeder Person in den Algorithmus einbeziehen? Wenn wir für jedes DNA-Basenpaar des menschlichen Genoms eine Variable definieren, würden wir etwa 3 Milliarden Variablen hinzufügen. Dies wäre das, was Datenwissenschaftler als Big Data bezeichnen. (Um ehrlich zu sein, wären 3 Milliarden Variablen einfach zu viele Daten, weil wir in der Statistik mehr Zeilen (d. h. Personen in unserer Stichprobe) als Spalten (d. h. Variablen) benötigen. Wir müssten also mit einem Genomik-Experten zusammenarbeiten, um die spezifischen Teile des Genoms herauszufinden, die wahrscheinlich einen Einfluss auf das Haar haben. Seufz!)
In der Geschichte der Menschheit wurde manuelle Arbeit (z. B. das Pflügen eines Feldes oder das Waschen von Wäsche mit einem Waschbrett) immer wieder durch Maschinen ersetzt, die einen Teil des Prozesses automatisierten. Das maschinelle Lernen tut dasselbe für die statistische Modellierung.
Diese Automatisierung und die massive Verkürzung der für die Entwicklung eines Algorithmus erforderlichen Zeit ermöglichen auch einen Paradigmenwechsel. Traditionell war die Entwicklung eines Modells ein bisschen so, als würde man einen Satelliten in die Umlaufbahn schießen – Datenwissenschaftler konnten viele Monate damit verbringen, einen neuen Algorithmus zu entwickeln, aber dieser Algorithmus war oft viele Jahre lang im Einsatz. Die Geschwindigkeit und die geringen Kosten des maschinellen Lernens ermöglichen eine schnelle Aktualisierung von Algorithmen – wenn ein neuer Algorithmus jeden Monat, jede Woche oder jeden Tag geschätzt wird, können die Verbesserungen von einer Version zur nächsten inkrementell sein, aber zu jedem Zeitpunkt berücksichtigt das Modell die jüngsten Änderungen in der Realität.
Es gibt sogar selbstverbessernde maschinelle Lernmodelle, die sich ohne menschliches Zutun selbst aktualisieren. Das maschinelle Lernen in Echtzeit treibt dies auf die Spitze: Für jede Transaktion wird ein neuer Algorithmus berechnet, der die neuesten Daten berücksichtigt.
Ein Blick unter die Haube des maschinellen Lernens
Die folgende Analogie kann Ihnen eine Vorstellung davon vermitteln, was maschinelles Lernen im Vergleich zum eher manuellen Ansatz eines traditionellen Datenwissenschaftlers leistet.
Wenn man früher wissen wollte, wie man am besten von A nach B kommt, hat man vielleicht einen Taxifahrer nach dem Weg gefragt. Die Qualität der Antwort hing entscheidend davon ab, dass der Taxifahrer den Weg tatsächlich kannte. Zwar konnte der Taxifahrer immer noch mehrere Routen in Betracht ziehen und abschätzen, welche Route zu dieser bestimmten Tageszeit die schnellste wäre, doch war das a priori-Wissen des Taxifahrers über eine oder mehrere mögliche Routen eine entscheidende Voraussetzung für eine vernünftige Antwort.
Das maschinelle Lernen ist eine allgemeine Technik, um das gleiche Problem ohne Vorkenntnisse zu lösen. In der einfachsten Version könnte ein Computer jeden möglichen Weg von A nach B berechnen (einschließlich der wirklich schwachsinnigen Routen), die benötigte Fahrzeit berechnen und Ihnen die schnellste Route nennen.
Clevere Köpfe können noch raffiniertere Versionen des maschinellen Lernens entwickeln, indem sie clevere Algorithmen programmieren, die es vermeiden, Zeit mit der Berechnung wirklich unsinniger Routen zu verschwenden (was die Geschwindigkeit erhöht, mit der der Algorithmus die Antwort ausspuckt), und die die Route möglicherweise sogar nach anderen Kriterien optimieren. Manchmal wird der Algorithmus dieselbe Antwort geben wie ein erfahrener Taxifahrer, während er manchmal eine verblüffende Abkürzung findet, die der Fahrer nie in Betracht gezogen hätte (z. B. kann sich herausstellen, dass eine Abkürzung durch eine Schulzone trotz der drakonischen Geschwindigkeitsbegrenzung schneller ist als eine ewig verstopfte Kreuzung, über die die Hauptstraße führt). Und wenn man dem Computer Zugang zu Echtzeit-Verkehrsdaten gibt, kann er auf der Grundlage der aktuellen Verkehrslage den schnellsten Weg finden. Dies ist ein Aspekt, bei dem der Computer den Taxifahrer leicht übertreffen kann, da eine Person, die in einem Auto in der Nähe von Punkt A sitzt, normalerweise den aktuellen Verkehr auf der gesamten Strecke nicht sehen kann und die Verkehrsbedingungen bestenfalls aufgrund früherer Erfahrungen erahnen kann.
Die Entwicklung von Variablen wird durch Algorithmen des maschinellen Lernens unterstützt, die automatisch Tausende von abgeleiteten Variablen erzeugen. Wir haben bereits in Kap. 3 erörtert, wie der Haar-Algorithmus eine bessere Genauigkeit erreichen könnte, wenn wir nicht nur eine gute nichtlineare Transformation des Alters, sondern auch eine geeignete Unter- und Obergrenze finden würden. Das maschinelle Lernen kann eine endlose Anzahl von Optionen durchlaufen, sei es eine Polynomgleichung siebten Grades, eine trigonometrische Funktion oder eine Fourier-Transformation von Zeitreihendaten.
Die Modellschätzung wird durch maschinelles Lernen unterstützt, das komplexe Modelle schätzt, die viel Flexibilität zulassen – ein Entscheidungsbaum kann beispielsweise verschiedene Teilsegmente unterscheiden und sie völlig unterschiedlich behandeln. Das Universalitätstheorem besagt, dass Deep Learning, die derzeit fortschrittlichste Technik des maschinellen Lernens, die neuronale Netze verwendet und somit in gewisser Weise die Funktionsweise des menschlichen Gehirns nachahmt, jede mögliche Funktion annähern kann. (Denken Sie daran, dass „können“ nicht bedeutet, dass dies jedes Mal der Fall sein muss, und dass dies an allerhand Bedingungen geknüpft ist, die in der Realität oft nicht erfüllt sind). Viele Verfahren des maschinellen Lernens zielen darauf ab, bessere und robustere Ergebnisse zu erzielen, indem sie eine große Anzahl von Modellen schätzen, die gleichzeitig verwendet werden, so genannte Ensembles von Modellen (man stelle sich ein Komitee von hoch bezahlten Expertenrobotern vor, die alle eine Stimme oder eine Schätzung abgeben).
Die Modellfeinjustierung wird durch rekursive maschinelle Lernverfahren unterstützt, die aus ihren eigenen Fehlern lernen. Ich habe bereits gradientengestützte Entscheidungsbäume erwähnt – sie sind ein Beispiel für Modelle, die durch maschinelles Lernen feinjustiert werden. Der Algorithmus des maschinellen Lernens untersucht die Fehler eines ursprünglichen Vorhersagemodells und passt ein korrigierendes Modell an die Fehler an. Dieser Prozess kann so lange wiederholt werden, bis wir entweder mit dem erreichten Genauigkeitsgrad zufrieden sind (Datenwissenschaftler geben dem statistischen Abstimmungsalgorithmus ein numerisches Kriterium dafür, wann wir „zufrieden“ sind – wenn die durch die letzte Iteration erzielte inkrementelle Verbesserung unter diesen Schwellenwert fällt, endet die Feinjustierung) oder wir an rechnerische Grenzen stoßen (d. h. weitere Iterationen würden den Computer zum Absturz bringen oder einfach mehr Zeit in Anspruch nehmen, als uns zur Verfügung steht).
Das war’s dann aber auch schon – das maschinelle Lernen automatisiert drei wichtige Aufgaben innerhalb des gesamten Modellentwicklungsprozesses, lässt aber viele Arbeitsschritte unberücksichtigt. Insbesondere werden viele der Arbeitsschritte, die geschäftliche Fachkenntnisse oder schwierige Problemlösungen erfordern (z. B. die Entscheidung, welche Datensätze aus der Stichprobe ausgeschlossen werden sollen), nicht berücksichtigt.
Ein Vergleich des maschinellen Lernens mit anderen statistischen Modellierungstechniken
Leider gibt es einen großen Hype um das maschinelle Lernen. Einige Leute schreiben dem maschinellen Lernen magische Kräfte zu, die jeden einzelnen Mangel traditioneller statistischer Algorithmen beheben, während andere glauben, dass mit maschinellem Lernen ein neues Vorhersagemodell an einem Tag erstellt werden kann – eine naive Sichtweise, die alle Arbeitsschritte ignoriert, die vom maschinellen Lernen nicht erfüllt werden.
Auch hier kann die Analogie zu unserem Taxifahrer einige der Grenzen des maschinellen Lernens verdeutlichen: Trotz all seiner Daten kann ein Navigationscomputer einige der Berechnungen nicht durchführen, die ein Taxifahrer durchführen würde. Ein Taxifahrer könnte zum Beispiel einen Blick auf die dunklen Wolken am Himmel werfen und sich ausrechnen, dass der Fährbetrieb wegen schlechten Wetters eingestellt wird, wenn er die Fähre erreicht, um den Hafen zu überqueren (Google Maps hat mich in diesem Fall schon im Stich gelassen – der Taxifahrer würde vielleicht lieber die etwas längere Tunnelstrecke nehmen). Oder er entscheidet sich dafür, eine zwielichtige Gegend zu meiden, in der kürzlich mehrere Überfälle auf Autos verübt wurden, die an roten Ampeln hielten. Der Mensch kann einen ganzheitlichen, kreativen Ansatz verfolgen und sich selbst mit Vorsicht mäßigen, während das maschinelle Lernen einen Brute-Force-Ansatz verfolgt, um Vorhersagemodelle zu erstellen, die ausschließlich ein eng definiertes Ziel lösen.
Die Grenze zwischen maschinellem Lernen und anderen statistischen Verfahren ist eigentlich fließend. Der Begriff des maschinellen Lernens wurde 1959 geprägt,1 einige Jahre nach der Gründung des Bereichs der künstlichen Intelligenz.2 Sobald Computer begannen, Menschen bei Berechnungen zu helfen, begannen Statistiker, sie als Mittel zur Handhabung rechenintensiverer Techniken zu nutzen – so verbreitete sich die Verwendung von Maximum-Likelihood-Schätzern, und zunehmend konnten sogar Studenten mit CHAID Entscheidungsbäume entwickeln (eine Technik, die im Vergleich zu den heutigen Baum-Ensembles einfach ist, aber fast unendlich viel anspruchsvoller als eine OLS-Regression). Der letzte Schub kam vor kurzem, als Statistiker herausfanden, dass Computerchips, die ursprünglich für die Erstellung hochwertiger Grafiken entwickelt wurden, auch statistische Operationen parallel verarbeiten können. Ja, wir sprechen von den Spieleanwendungen, bei denen Computer schnelle Objekte darstellen, die durch den dreidimensionalen Raum fliegen – wir müssen uns bei unseren Kindern bedanken, die die Hälfte ihrer Kindheit mit Computerspielen verbracht haben und deshalb nach immer leistungsfähigeren Maschinen verlangten! Ein Nvidia-Laptop verfügt über so viel Rechenleistung (so genannte „Kernels“, die in einem Grafikprozessor (GPU) untergebracht sind) wie mehrere Tausend herkömmliche Laptops (die eine sequenzielle Zentraleinheit (CPU) verwenden). Diese Rechenleistung wird insbesondere für Deep Learning benötigt, die derzeit am weitesten fortgeschrittene Art des maschinellen Lernens.
Maschinelles Lernen kann mehrere Schritte bei der Entwicklung eines statistischen Algorithmus automatisieren, die in der Vergangenheit viel Zeit für Datenwissenschaftler in Anspruch genommen haben. Damit kann es dazu beitragen, einige Voreingenommenheiten zu beseitigen. Während beispielsweise ein Datenwissenschaftler aufgrund des erheblichen manuellen Aufwands, der mit der Erfassung und Verarbeitung der einzelnen Datenfelder verbunden ist, traditionell eine begrenzte Anzahl von Prädiktoren sorgfältig auswählt und durch diese Auswahl von Prädiktoren möglicherweise eine Verfügbarkeits- oder Bestätigungsvoreingenommenheit einführt, verspricht das maschinelle Lernen, Zehntausende potenzieller Prädiktoren zu durchforsten und dabei auch die unwahrscheinlichsten zu testen und die Vorurteile des Datenwissenschaftlers zu hinterfragen.
Gleichzeitig birgt die Leichtigkeit, mit der Softwarepakete auch Laien die Nutzung des maschinellen Lernens ermöglichen, neue Risiken. Begünstigt durch den Hype, der um sie gemacht wird, können sowohl Laien als auch übereifrige oder naive Datenwissenschaftler maschinelles Lernen einsetzen, ohne den Arbeitsschritten, die nicht von ihm abgedeckt werden (z. B. Datenbereinigung), genügend Aufmerksamkeit zu schenken. Infolgedessen besteht ein erhöhtes Risiko, dass Verzerrungen durchschlüpfen, weil Datenanomalien unentdeckt bleiben.
So wie die industrielle Revolution dem Menschen nie dagewesene Möglichkeiten eröffnete und weitreichende Folgen für unser Leben hatte, verspricht das maschinelle Lernen viele neue Anwendungen für Algorithmen zu erschließen, die der Menschheit in vielerlei Hinsicht zugute kommen könnten. Dank der Automatisierung können mit dem maschinellen Lernen die Kosten für die Entwicklung oder Aktualisierung eines statistischen Algorithmus erheblich gesenkt werden. Infolgedessen haben Unternehmen damit begonnen, Algorithmen auf viele Entscheidungsprobleme anzuwenden, auf die noch nie zuvor ein Algorithmus angewandt wurde, und sie haben begonnen, bestehende Algorithmen in einem viel höheren Tempo zu ersetzen. Allerdings verzichten Unternehmen manchmal auch auf die manuelle Überwachung und Validierung von Algorithmen. Infolgedessen sind Algorithmen dank des maschinellen Lernens in Unternehmen viel allgegenwärtiger geworden, und auch die Risiken für algorithmische Verzerrungen sind gestiegen.
Zusammenfassung
Das maschinelle Lernen ermöglicht die Entwicklung fortschrittlicherer Modelle vor allem durch die Unterstützung komplexerer Merkmale und Modelldesigns, eine differenziertere Behandlung von Teilsegmenten und die Berücksichtigung von wesentlich mehr Daten, einschließlich Big Data und inhärent komplexer Attribute wie Bilder und aufgezeichnete Sprache.
Durch die große Menge der mechanisch getesteten Hypothesen kann das maschinelle Lernen Vorurteile von Datenwissenschaftler zumindest in einigen Fällen in Frage stellen und entkräften.
Das maschinelle Lernen automatisiert auch mehrere Teilschritte des Modellentwicklungsprozesses und ermöglicht so den kostengünstigen Einsatz von Algorithmen für immer mehr Entscheidungen.
Durch die Automatisierung zuvor manueller Modellentwicklungsschritte und die Versuchung für Datenwissenschaftler und Nutzer, andere Schritte auszulassen (manchmal in dem naiven Glauben, dass maschinelles Lernen jegliche menschliche Aufsicht überflüssig macht), kann maschinelles Lernen neue Verzerrungen in Algorithmen einführen.
Und aufgrund ihrer undurchsichtigen Natur müssen Verzerrungen in Algorithmen, die durch maschinelles Lernen entwickelt wurden, meist indirekt diagnostiziert und angegangen werden, ähnlich wie menschliche Vorurteile diagnostiziert und bekämpft werden.