So wie die Erfindung von Computern und des Internets unsere Welt grundlegend verändert hat, ermöglicht das maschinelle Lernen plötzlich, dass die Analytik fast überall präsent ist. Bei solch rasanten Veränderungen neigen wir Menschen natürlich auch zum Überschwang, ja sogar zum Hype, und manchmal müssen wir einen Schritt zurücktreten und tief durchatmen, um die Dinge im Blick zu behalten.
Als ich 1995 einen Marketingkurs an der Universität Gießen belegte, verwendete der Professor ein Diagramm aus den 1960er-Jahren, das die Idee der Produktlebenszyklen anhand verschiedener Stoffarten illustrierte. Baumwolle wurde am Ende ihres Lebenszyklus eingezeichnet, während Nylon am Anfang einer rasanten Karriere stand. Wenn Sie nicht wie mein Professor sind (der vielleicht ein paar Jahrzehnte von der Erde weg war, um Marsmenschen zu studieren?), müssen Sie bemerkt haben, dass diese Begeisterung für Nylon übertrieben und kurzlebig war: Baumwolle kam bereits in den 70er-Jahren wieder in Mode, und die Verwendung von Nylon beschränkt sich auf bestimmte Produkte (z. B. Fallschirme und Winterkleidung), bei denen seine Vorteile seine Nachteile überwiegen.
Denken Sie an das Schicksal von Nylon, wenn Sie den aktuellen Hype um maschinelles Lernen beobachten. Ich werde die wichtigen Vorteile des maschinellen Lernens gleich anerkennen, und ich bin überzeugt, dass es sich durchsetzen wird und ein viel breiteres Spektrum von Anwendungen haben wird als nur Strumpfhosen und Winterjacken. Vergessen Sie jedoch nicht, dass maschinelles Lernen – und insbesondere neuronale Netze – die Funktionsweise des menschlichen Unterbewusstseins nachbilden, d. h. den animalischen Teil des Gehirns, dieselbe auf Mustern basierende, mühelose, ultraschnelle Entscheidungsmaschine, die Löwen bei der Jagd einsetzen und die Hunde zu guten Wachhunden macht (die im Grunde genommen niedliche Maschinen zur Erkennung von Anomalien sind und laut bellen). Als die Natur jedoch den Menschen schuf, setzte sie noch einen drauf und fügte eine ganz neue Fähigkeit hinzu, die wir logisches Denken nennen. Logisches Denken erhöhte den Energieverbrauch des Menschen um satte 25 %, was jedoch durch den Zuwachs an Leistung, oder was wir Intelligenz nennen, mehr als aufgewogen wurde. Künstliche Intelligenz ist daher zum jetzigen Zeitpunkt eher als intelligenter Pudel denn als promovierter Datenwissenschaftler konzipiert. Ich bin der festen Überzeugung, dass es für jeden Haushalt von Vorteil wäre, einen Hund zu haben, und würde nie behaupten, dass meine Fähigkeit, fliegende Gegenstände zu fangen, auch nur annähernd so gut ist wie die des Hundes meiner Eltern. Wenn es um die Entwicklung von Algorithmen geht, glaube ich jedoch immer noch, dass ein handwerklicher Ansatz in vielen Fällen die besseren Modelle hervorbringen kann.
Die Chance des maschinellen Lernens besteht vor allem darin, dass es schnell und billig ist. „Data Mining“ hat daher in meinen Augen den Reiz von Fast Food. So wie nur wenige Menschen behaupten würden, dass Fast Food besser schmeckt als eine mit drei Michelin-Sternen prämierte Küche, und die Entscheidung für ersteres oder letzteres vor allem vom Zeit- und Geldbudget abhängt, glaube ich, dass maschinelles Lernen immer dann zum Einsatz kommt, wenn man nicht die Zeit hat, einen handwerklicheren Ansatz zu verfolgen, oder wenn es einem an den nötigen „Koch“-Kenntnissen mangelt (was bei bestimmten Datentypen wie z. B. Bildern gar nicht so überraschend ist).
Nachdem ich jedoch festgestellt habe, dass das beste Eis der Stadt oft als „handwerklich“ (und niemals als „maschinell hergestellt“) beworben wird, bin ich zu der Überzeugung gelangt, dass das Konzept der Kunstfertigkeit sehr gut den Wert erfasst, den ein erfahrener Datenwissenschaftler dadurch schafft, dass er die Daten, mit denen er arbeitet, ständig überprüft und seinen Ansatz ändert, um bestimmte Einschränkungen und Schlaglöcher in den Daten zu kompensieren und so schädliche Vorurteile geschickt zu umgehen.
Aber haben Sie nicht auch schon gehört, dass Modelle des maschinellen Lernens viel besser vorhersagen können? Meiner Beobachtung nach lassen sich viele Wettbewerbe, bei denen das Modell mit maschinellem Lernen eine bessere Vorhersagekraft aufweist, dadurch erklären, dass die Datenwissenschaftler, die ein handwerkliches Herausforderungsmodell erstellen, nicht genug Zeit haben – und diese Lücke kann bei einigen Arten von wirklich „großen Daten“ ein Jahr betragen, aber auch nur ein oder zwei Wochen (viele Benchmarking-Übungen sind wirklich übereilt). Und bei diesen Vergleichen wird selten berücksichtigt, ob die höhere Vorhersagekraft des maschinellen Lernmodells mit einer Verzerrung einhergeht.1 Tatsächlich klauen die besten algorithmischen Köche viele der besten Tricks des maschinellen Lernens, so wie die Gourmetküche oft eine Hightech-Angelegenheit ist, bei der ein ganzer Maschinenpark mit Brennern, Mühlen, Vakuumpumpen und vielem mehr zum Einsatz kommt. Wir werden uns damit im nächsten Kapitel beschäftigen. In diesem Kapitel möchte ich jedoch die grundsätzliche Entscheidung erörtern, ob ein bestimmtes Modellierungsproblem sicher mit maschinellem Lernen gelöst werden kann oder einen eher handwerklichen Ansatz erfordert, um algorithmische Verzerrungen zu vermeiden.
Wenn wir das maschinelle Lernen einem handwerklichen Ansatz gegenüberstellen, bei dem der Datenwissenschaftler den Modellentwicklungsprozess in einer viel manuelleren Weise durchläuft und sein betriebswirtschaftliches Urteilsvermögen und sein Kontextwissen in alle Modellierungsentscheidungen einfließen lässt, können wir denselben Kosten-Nutzen-Rahmen verwenden, den wir in Kap. 12 verwendet haben, um zwischen einem Algorithmus und einer Entscheidungsfindung durch menschliches Urteil zu entscheiden. Der handwerkliche Ansatz verursacht sowohl erhebliche Arbeitskosten als auch eine beträchtliche Verzögerung bei der Verfügbarkeit des Algorithmus; das maschinelle Lernen hingegen kann ein erhebliches Risiko mit sich bringen, dass eine algorithmische Verzerrung auftritt und finanziellen und nicht-finanziellen Schaden verursacht.
Zunächst müssen wir feststellen, welche Verzerrungen vorhanden sein könnten. Zu diesem Zweck haben wir die Daten in Kap. 19 systematisch nach Hinweisen durchsucht.
Als Nächstes müssen wir die spezifischen Maßnahmen ermitteln, die ein Datenwissenschaftler, der einen handwerklichen Ansatz verfolgt, ergreifen würde, um mit diesen Verzerrungen umzugehen, die aber bei einem schnellen, automatisierten Ansatz des maschinellen Lernens wegfallen würden. Kap. 18 liefert den Hintergrund für diese Bewertung und ermöglicht es uns somit, die Gefährdung durch algorithmische Verzerrungen zu definieren, die durch die Verwendung von maschinellem Lernen für ein bestimmtes Modellierungsproblem entstehen würde.
Schließlich müssen wir die Schwere der Verluste bewerten, die sich aus dieser Anfälligkeit für algorithmische Verzerrungen ergeben könnten, wie in Kap. 13 erläutert.
…Schnelligkeit das A und O ist. Wenn ein Algorithmus zu dem Zeitpunkt, an dem er von einem erfahrenen Datenwissenschaftler ausgearbeitet wurde, bereits veraltet ist, heißt es maschinelles Lernen oder gar nichts. Algorithmen zum Schutz vor Kreditkartenbetrug und Cybersicherheitsvorfällen sind gute Beispiele für diese Kategorie.
…weder der Datenwissenschaftler noch der Rest der Organisation über viel kontextbezogenes Wissen verfügt und daher kein Argument dafür vorgebracht werden kann, dass ein handwerklicher Ansatz einen Vorteil gegenüber einem maschinellen Lernmodell bietet, fällt die Entscheidung wahrscheinlich auf maschinelles Lernen oder gar keinen Algorithmus (wie in Kap. 12 erläutert). Organisationen, die erst vor kurzem mit der Verwendung von Algorithmen begonnen haben und daher über wenig Fachwissen im Bereich der Datenwissenschaft verfügen (und sich stattdessen auf Software verlassen, die maschinelles Lernen automatisch auf ihre Entscheidungsprobleme anwendet), könnten sich in dieser Kategorie wiederfinden, obwohl sie sich fragen sollten, ob sie langfristig in dieser Situation bleiben wollen.
…der wirtschaftliche Nutzen gering ist – wenn sich das Geschäftsproblem einfach nicht für einen aufwändigen handwerklichen Ansatz lohnt, lautet die Entscheidung wieder: entweder maschinelles Lernen oder gar kein Algorithmus.
Die Modellierung von Problemen mit sehr großen oder schwer zu verarbeitenden Daten – z. B. unstrukturierte Daten wie Textnachrichten über mehrere Kanäle, komplexe Zeitreihendaten wie Transaktionen mit reichhaltigen und möglicherweise unstrukturierten Metadaten, Sprach- und Bilddaten – kann Herausforderungen an die Modellierung stellen, die mit einem Ansatz „in Schrittgeschwindigkeit“ nicht zu bewältigen sind, so wie das menschliche Gehirn bei Aufgaben wie Sehen, Sprache und Verlieben auf den Pudel in seinem Unterbewusstsein angewiesen ist. Hier ist echte Teamarbeit gefragt, bei der sich handwerkliche Datenwissenschaft und maschinelles Lernen ergänzen, so wie ein Gentleman mit einem funkelnden Unterbewusstsein gelernt hat, „auf seine Zunge zu achten“ und die unerwünschten, impulsiven Äußerungen seines Unterbewusstseins in Schach zu halten. Dies wird das Thema des nächsten Kapitels sein.
Zusammenfassung
Wir sind sehr besorgt über den Einsatz von maschinellem Lernen, wenn wir Hinweise darauf gefunden haben, dass unser Algorithmus für eine Verzerrung anfällig ist, die ein wesentliches Geschäftsrisiko darstellt und die nur durch einen handwerklichen Ansatz richtig angegangen werden kann.
Andererseits können wir uns einen handwerklichen Ansatz vielleicht nicht leisten, wenn Schnelligkeit oberstes Gebot ist, unsere Organisation nur wenige oder gar keine Fachkenntnisse hat, um die Verzerrung zu behandeln, oder der wirtschaftliche Nutzen des Algorithmus nicht ausreicht, um eine handwerkliche Entwicklung zu rechtfertigen.
Wenn weder maschinelles Lernen noch ein handwerklicher Ansatz praktikabel ist, kann es die beste Option sein, überhaupt keinen Algorithmus zu verwenden.
In anderen Situationen – vor allem bei sehr großen oder komplexen Daten – sollten wir einen hybriden Ansatz verfolgen, bei dem sowohl maschinelles Lernen als auch handwerkliche Techniken zum Einsatz kommen.