5Grundlegende Methoden der Data Science

Stephan Trahasch · Carsten Felden

In diesem Beitrag werden grundlegende Aspekte und Methoden der Data Science erläutert. Nach dem Vorgehensmodell CRISP-DM sind in den Phasen Data Unterstanding und Data Preparation vor allem Verfahren der Datenselektion, Datenvorverarbeitung und der explorativen Datenanalyse anzuwenden. Beim Modeling, der Hauptaufgabe der Data Science, kann man überwachte und unüberwachte Methoden sowie Reinforcement Learning unterscheiden. Auf die Evaluation der Güte eines Modells anhand von Qualitätsmaßen wird anschließend eingegangen. Der Beitrag schließt mit einem Ausblick auf weitere Themen wie Cognitive Computing.

5.1Einleitung

Die Hauptaufgabe der Data Science ist die Erkennung von Mustern in Daten, um daraus Wissen zu generieren. Für diese Aufgabe kommen im Wesentlichen Methoden und Algorithmen des Machine Learning zum Einsatz. Die Algorithmen erlernen anhand von Daten aus der Vergangenheit ein Modell, das die vorliegenden Daten erklärt. Das gelernte Modell kann anschließend verwendet werden, um prädiktiv neue Daten einzuordnen oder deskriptiv Daten zu beschreiben. Enthalten die Datensätze ein (Ziel-)Attribut, das vorhergesagt werden soll, handelt es sich um ein überwachtes Lernverfahren wie beispielsweise Klassifikation (nominales Zielattribut) oder Regression (numerisches Zielattribut). Unüberwachte Verfahren versuchen hingegen, automatisch Ähnlichkeitsstrukturen in den Daten zu identifizieren. Es steht im Unterschied zu den überwachten Verfahren kein Zielattribut zur Verfügung, das vorhergesagt werden soll. Die so gefundenen Gruppen von ähnlichen Objekten werden als Cluster bezeichnet, die Gruppenzuordnung als Clustering. Clusterverfahren werden zum Beispiel eingesetzt, um Kunden- und Produktsegmente zu identifizieren.

Die nachfolgend skizzierten grundlegenden Verständnisse und Verfahren werden orientiert am Vorgehensmodell CRISP-DM vorgestellt, wobei für das Business Unterstanding auf das Kapitel 1 verwiesen wird.

Abb. 5–1CRISP-DM

5.2Data Understanding und Data Preparation

Im ersten Schritt nach dem Business Unterstanding ist es erforderlich, die Datenquellen und die für die Lösung des Business Case notwendigen Daten zu identifizieren und für eine erste Analyse zu extrahieren. Die Daten, in denen Muster ermittelt werden sollen, beschreiben zum Beispiel Kunden, Transaktionen etc. anhand von mehreren Attributen (Features). Die Attribute können numerisch, ordinal oder nominal sein [Stevens 1946]. Ein Kunde, der einen Kredit beantragt, könnte durch folgende Auswahl an Attributen beschrieben werden (vgl. Tab. 5–1). Die Kreditwürdigkeit ist das Zielattribut, das das Modell für neue Kunden als Klassifikation vorhersagen soll.

Tab. 5–1Attribute und Daten zur Vorhersage der Kreditwürdigkeit

Nominale Attribute wie in dem Beispiel »Verwendung« haben keine inhärente Ordnung, sodass nur die Häufigkeit des Auftretens eines Werts gezählt werden kann. Ein ordinales Attribut hingegen wie »Einkommen« kann auch in eine Rangfolge gebracht werden. Numerische Attribute können weiter in eine Intervall- und eine Verhältnisskala differenziert werden. Bei der Intervallskala liegt nicht nur wie bei der Ordinalskala eine Rangordnung vor, sondern es ist auch der Abstand zwischen Merkmalsausprägungen messbar. Eine Intervallskala unterteilt sich immer in gleichgroße Skalenabschnitte, hat jedoch keinen natürlichen Nullpunkt, sondern häufig nur einen willkürlich festgelegten Nullpunkt. Das Attribut »Beschäftigt seit« ist ein numerisches Attribut mit einer Intervallskala. Die Verhältnisskala oder auch Ratioskala ist eine weitere metrische Skala, bei der im Unterschied zur Intervallskala auch ein natürlicher Nullpunkt existiert. Das Attribut »Kredithöhe« ist ein Beispiel für eine Verhältnisskala. Bei der Vorverarbeitung kann es sinnvoll sein, ein metrischskaliertes Attribut A in ein ordinalskaliertes Attribut A' umzurechnen, wobei die Werte von A' jeweils ein Intervall repräsentieren und jeder ursprüngliche numerischen Wert x ∊ A einem Intervall zugeordnet wird. Die Größe der Intervalle wird bei der Vorverarbeitung festgelegt und kann angepasst werden. Dieses Vorgehen wird mit dem Begriff »Binning« bezeichnet.

Die Datenvorverarbeitung und -aufbereitung (Data Preparation) nimmt in Projekten häufig bis zu 80% des Gesamtaufwands in Anspruch. Gründe dafür sind, dass die Daten in der Regel aus unterschiedlichen Quellsystemen zusammengeführt werden müssen und die Datenqualität geprüft und sichergestellt werden muss. Liegen die Daten zum Teil oder gar vollständig bereits feingranular in einem BI-System vor, so kann der Aufwand für die Data Preparation deutlich reduziert werden. Die Datenvorbereitung ist Aufgabe eines Data Engineer und erfolgt in Zusammenarbeit mit der Fachabteilung. Da zu Beginn eines Data-Science-Projekts nicht offensichtlich ist, welche Attribute zum Lernen des Modells verwendet werden sollen, empfiehlt es sich, dem Data Scientist eine möglichst umfangreiche Menge an Attributen zur Verfügung zu stellen. Im weiteren Vorgehen ermittelt der Data Scientist beispielsweise über eine Korrelationsanalyse oder ein Feature-Selection-Verfahren, welche Attribute notwendig und sinnvoll für das Lernen sind, und schränkt bis hin zum Deployment die Anzahl der Attribute ein. Es ist darauf zu achten, dass die notwendigen Attribute, die im historischen Datensatz zum Trainieren des Modells vorliegen, auch bei der Anwendung des Modells, der Prädikation, bereits vorhanden sind. Es kommt durchaus vor, dass Datensätze durch externe Services oder nachträgliche Verfahren angereichert werden, dass aber zum Zeitpunkt, an dem eine Entscheidung getroffen werden soll, diese zusätzliche Informationen nicht vorliegen [Kaufman et al. 2012]. Das Ergebnis der Data Preparation stellt die analytische Datenbasis dar, die für das eigentliche Lernen des Modells verwendet wird.

5.2.1Explorative Datenanalyse

Während der Data Preparation wird auch eine explorative Datenanalyse durchgeführt, um die Daten zu charakterisieren und Auffälligkeiten in den Daten zu identifizieren [Tukey 2000]. Auf Basis der explorativen Datenanalyse können erste Erkenntnisse wie beispielsweise Ausreißer, fehlende Daten, Korrelationen oder ungleichgewichtige Klassen identifiziert und Hypothesen aufgestellt werden.

Die Daten werden u.a. anhand von statistischen Kennzahlen wie Lagemaße (Median, Mittelwert), Streuungsmaße (Varianz und Standardabweichung) und Klassenhäufigkeit beschrieben und es werden fehlende Werte bei Datensätzen identifiziert. Mithilfe der Korrelationsanalyse kann die lineare Abhängigkeit untersucht werden. Bei numerischen Attributen wird in der Regel der Korrelationskoeffizient nach Bravais/Pearson berechnet. Bei ordinalen Attributen kann die Korrelation nach dem Rangkorrelationsverfahren von Spearman ermittelt werden. Das Ergebnis der Korrelationsanalyse macht keine Aussage über die Kausalität der Attribute!

Zur visuellen Analyse der Daten eignen sich in dieser Phase u.a. Streudiagramme und Boxplots. Ein Streudiagramm (engl. Scatterplot) ist die grafische Darstellung von Attributpaaren, wobei die Werte der Daten bezüglich der beiden Attribute als Punkte in ein kartesisches Koordinatensystem eingetragen werden. Bei der Klassifikation kann zusätzlich die Klasse codiert werden, die den jeweiligen Punkten durch eine Farbe oder ein Symbol zugeordnet wird, sodass insgesamt drei Informationen dargestellt werden können. In Abbildung 5–4 ist ein Streudiagramm für Daten, die drei unterschiedliche Schwertlilien beschreiben, dargestellt.

Abb. 5–2Scatterplot

Um mehrere Attribute miteinander zu vergleichen oder auch nur ein Attribut zu analysieren, ist ein Boxplot sehr nützlich. Ein Boxplot stellt mehrere statische Kennzahlen in einem Diagramm dar, sodass ein einfacher visueller Vergleich der Lage- und Streuungsparameter der Attribute möglich ist. Die »Box« umfasst 50% der Daten, die sich zwischen dem oberen Quartil und dem unteren Quartil befinden. Die kleinsten 75% der Datenwerte sind kleiner als das untere Quartil und die größten 25% der Datenwerte sind größer als das obere Quartil. Der Abstand zwischen oberem Quartil und unterem Quartil wird als Interquartilsabstand bezeichnet und ist gleichzeitig die Höhe der »Box«. Werte, die kleiner oder größer als das 1,5-Fache des Interquartilsabstands sind, werden als einzelne Punkte nach den »Whisker«-Bereichen eingetragen und können Ausreißer darstellen.

Abb. 5–3Boxplot für ein Attribut

5.2.2Transformation und Normalisierung

Analog zum ETL-Prozess bei BI-Systemen müssen die (Quell-)Daten häufig transformiert werden, um beispielsweise syntaktische Mängel zu beheben, Codierungen zu vereinheitlichen, Datentypen anzupassen etc. Neben diesen aus der BI bekannten Ansätzen gibt es im Data Mining weitere Transformationen, die notwendig sind, damit ein Data-Mining-Algorithmus sinnvolle Ergebnisse erzielen kann.

Im Beispiel der Daten zur Kreditvergabe erstreckt sich der Wertebereich des Attributs Kredithöhe zwischen 4.000 und 25.000 Euro und der Bereich für das Attribut Alter zwischen 21 und 52 Jahre. Werden nun Distanzen (siehe Abschnitt 5.4) zwischen zwei Datenpunkten berechnet, so dominiert die Kredithöhe das Ergebnis. Das Attribut Alter hat einen vernachlässigbaren Einfluss auf die Distanz.

Ziel der Normalisierung ist die Transformation der Werte eines Merkmals in einen definierten Bereich, wobei die relativen Unterschiede zwischen den Werten für das Merkmal beibehalten werden. Eine Möglichkeit besteht darin, die Daten in das Einheitsintervall [0, 1] zu transformieren. Dazu werden alle Werte x_j für ein Attribut A_i wie folgt in x'_j transformiert:

Eine z-Transformation bzw. Standardisierung wandelt Attribute so um, dass der Mittelwert = 0 und die Standardabweichung = 1 ist. Dazu subtrahiert man von jedem Datenwert x des Attributs A den arithmetischen Mittelwert , teilt die resultierende Differenz durch die Standardabweichung s und erhält dadurch die sogenannten z-Werte:

Die Normalisierung von Daten ist ein wichtiger Vorverarbeitungsschritt für fast alle Algorithmen des maschinellen Lernens.

5.3Überwachte Lernverfahren

Überwachte Lernverfahren (engl. Supervised Learning) sind die wohl am meisten angewandten Methoden des maschinellen Lernens. Bei überwachten Lernverfahren bestehen die zur Verfügung stehenden Daten aus beschreibenden Attributen und einem Zielattribut, für das eine Vorhersage (Klassenzuordnung) getroffen werden soll. Aus diesen Daten lernt das überwachte Lernverfahren ein Modell, das den Zusammenhang zwischen den beschreibenden Attributen und dem Zielattribut möglichst gut erklärt. Bei einem nominalen Zielattribut mit mehreren Ausprägungen, die die Klassen repräsentieren, spricht man von Klassifikation, bei einem numerischen Zielattribut von Regression, wobei letztere mithilfe von Schwellenwerten auch zur Klassifikation verwendet werden können.

Überwachte Lernverfahren sind sehr gut untersucht und es gibt verschiedene Ansätze, wie ein Klassifikationsmodell gelernt werden kann. Dies sind zum Beispiel informationstheoretische Verfahren wie Entscheidungsbäume, instanzbasierte Lernverfahren wie k-nächster-Nachbar, wahrscheinlichkeitsbasierte Lernverfahren wie Naive Bayes oder Algorithmen wie beispielweise Support Vector Machines, die eine Gerade bzw. eine Ebene zur Trennung von Klassen lernen. Neuronale Netze und Deep Learning werden in einem eigenen Kapitel (siehe Kap. 7) behandelt, sodass hier nicht näher darauf eingegangen wird.

5.3.1Datenaufteilung

Basis für überwachte Verfahren sind Daten mit vorhandenen Zielattributen, wobei man den tatsächlich zugrunde liegenden Mechanismus der Datenerzeugung und Zuordnung der Zielattribute nicht kennt. Damit ist jedes Modell letztendlich fehlerhaft wie Box in dem Zitat »All models are wrong but some are useful« [Box 1979] treffend zum Ausdruck brachte. Mithilfe des Modells wird versucht, eine Fehlerfunktion zu minimieren, die die Abweichung der Vorhersage von dem tatsächlichen Wert misst. Welche Fehlerfunktion für die konkrete Problemstellung verwendet werden soll, muss zu Beginn des Data-Science-Projekts mit der Fachabteilung festgelegt werden.

Jedes Data-Mining-Verfahren hat mehrere Parameter, die spezifiziert werden müssen, um eine möglichst gute Vorhersage treffen und die Fehlerfunktion minimieren zu können. Um den tatsächlichen Fehler und die Mächtigkeit des Verfahrens beurteilen zu können, teilt man die Daten in eine Trainings-, eine Validierungs- und eine Testmenge ein (vgl. Abb. 5–4), wobei die Aufteilung anhand unterschiedlicher Strategien erfolgen kann. Dies können Strategien wie Holdout, Kreuzvalidierung oder Bootstrapping sein [Aggarwal 2015].

Abb. 5–4Aufteilung der Daten in Trainings-, Validierungs- und Testmenge

Die Daten der Trainingsmenge werden zum Lernen des Modells verwendet. Um eine möglichst gute Vorhersage treffen zu können und die Fehlerfunktion zu minimieren, verfügt jedes Data-Mining-Verfahren über mehrere Parameter, die spezifiziert werden müssen. Die Bestimmung der möglichst optimalen Parameter erfolgt mithilfe der Daten in der Validierungsmenge. Diese werden verwendet, um die Abweichung der Vorhersage mit den verwendeten Parametern zu messen und gegebenenfalls die Parameter anzupassen. Somit werden die Daten aus der Validierungsmenge auch für das eigentliche Lernen herangezogen. Man könnte nun auf die Idee kommen, einfach die Fehlerrate auf der Trainingsmenge zu minimieren. Dies würde jedoch eine Überanpassung (»Overfitting«) des Modells an die Daten der Trainingsmenge bedeuten und zu einem großen Fehler bei der Vorhersage mit neuen, bisher nicht gesehenen Daten führen (vgl. Abb. 5–5).

Abb. 5–5Links ein Beispiel für Underfitting, rechts für Overfitting, in der Mitte ein passendes Modell

Die Fehler auf der Trainings- und Testmenge werden in einem sogenannten Fitting-Graphen dargestellt. Wie in Abbildung 5–6 zu erkennen ist, nimmt der Fehler (y-Achse) auf den Trainingsdaten mit zunehmender Modellkomplexität, sprich Erhöhung des Polynomgrades, ab. Das Modell passt sich mit hohem Grad an die Trainingsdaten zu sehr an (»Overfitting«). Gleichzeitig steigt mit hoher Modellkomplexität die Fehlerrate auf der Testmenge. Das Modell generalisiert nicht mehr gut. Ein guter Wert für das Modell in diesem Beispiel würde zwischen 3 und 5 liegen.

Abb. 5–6Fitting-Graph

Die Daten der Testmenge werden am Ende zur Bestimmung der Fehlerrate der Modelle verwendet und nie zum Lernen. Man wendet das gelernte Modell auf Daten an, die das Lernverfahren vorher nie gesehen hat. Damit kann man die sogenannte Generalisierungsfähigkeit des Modells messen, d.h. wie gut das Modell mit neuen, bisher nicht gesehenen Daten umgehen kann. Man ist an einem Modell mit einer hohen Generalisierungsfähigkeit bei gleichzeitig niedriger Fehlerrate interessiert.

5.3.2Bias-Variance-Tradeoff

Am Beispiel der Regression kann man zeigen, dass der Fehler zwischen dem tatsächlichen und vorhergesagten Wert aus den drei Einflussgrößen Bias, Varianz und einer zufälligen Störgröße besteht [Hastie et al. 2017]. Der Bias-Anteil sagt aus, wie genau das gelernte Modell im Durchschnitt über verschiedene mögliche Trainingssätze hinweg ist. Die Varianz bezeichnet, wie stark der Lernalgorithmus auf Änderungen im Trainingsset reagiert. Ist eine hohe Varianz vorhanden, so ändert sich die Vorhersage aufgrund geringer Änderungen in den Daten. Eine niedrige Varianz macht hingegen das Verfahren robust gegenüber Änderungen in den Daten (vgl. Abb. 5–7). Durch Variation der Modelle, der Parameter und Daten wird auf Bias und Varianz Einfluss genommen, um diese zu reduzieren. Idealerweise will man eine geringe Verzerrung und eine geringe Varianz. Beide Parameter können jedoch nicht gleichzeitig minimiert werden, was als Bias-Variance-Tradeoff bezeichnet wird. So führt eine Verringerung der Varianz oft zu einer Zunahme der Verzerrung und umgekehrt.

Abb. 5–7Dartscheibenanalogie nach [Moore et al. 2005] (eigene Darstellung). Wenn die Treffer stark variieren, liegt eine hohe Varianz vor. Wenn die Treffer weit vom Mittelpunkt entfernt sind, dann liegt eine hohe Verzerrung vor.

Die (induktive) Verzerrung, auch Learning Bias genannt, bezeichnet einen systematischen Fehler, der in dem Lernalgorithmus bedingt ist. Einem maschinellen Lernverfahren liegt eine Annahme zugrunde, welcher Zusammenhang zwischen Daten und Vorhersage existiert. Nur der mit dem Lernverfahren verbundene Zusammenhang kann damit erkannt werden. Bei Verwendung einer linearen Regression geht man davon aus, dass ein linearer Zusammenhang besteht, was jedoch so nicht sein muss. Auch andere Verfahren wie k-Nearest-Neighbours (kNN) oder Entscheidungsbäume treffen implizit Annahmen. Es empfiehlt sich somit, mehrere unterschiedliche Lernverfahren zu verwenden und die Ergebnisse miteinander zu vergleichen.

5.3.3Klassifikationsverfahren

Entscheidungsbäume sind informationstheoretische Verfahren, die aufgrund der Visualisierung für die Anwender relativ einfach zu verstehen und deren Entscheidungen nachvollziehbar sind (vgl. Abb. 5–8).

Abb. 5–8Ein Ausschnitt aus einem einfachen Entscheidungsbaum

Die inneren Knoten eines Entscheidungsbaums repräsentieren Entscheidungen bezüglich eines Attributs und ein Blatt stellt eine Entscheidung für eine Klasse dar. Zur Klassifikation eines neuen Datensatzes beginnt man an der Wurzel des Entscheidungsbaums, prüft den Wert des Attributs, das in dem Knoten definiert ist, und folgt der Kante mit der Ausprägung des Attributs zum nächsten Knoten. Dies wiederholt man so lange, bis man zu einem Blatt gelangt, das die vorhergesagte Klasse definiert. Der Pfad von der Wurzel bis zu einem Blatt stellt Entscheidungen dar und lässt sich auch als Regel repräsentieren:

Wenn Einkommen = Niedrig

UND Familienstatus = Ledig

UND Verwendung = Urlaub

DANN gewähre keinen Kredit

Der Algorithmus zum Lernen eines Entscheidungsbaums wählt als Wurzelknoten dasjenige Attribut aus, das die Klassen anhand der Attributausprägungen möglichst gut trennt. Dieses Attribut wird als Wurzelknoten in den Baum eingefügt und von dem Knoten gehen Kanten aus, die die möglichen Werte des Attributs widerspiegeln. Von den verbleibenden Attributen wird nun wieder ein Attribut in den Baum eingefügt. Dieses Verfahren wird so lange wiederholt, bis der Entscheidungspfad im Baum alle Elemente einer Klasse zuordnet.

Die Auswahl des Attributs, das möglichst gut die Klassen trennt, erfolgt bei einem Entscheidungsbaum nach dem ID3-Verfahren [Quinlan 1986] mithilfe des Informationsgewinns, der auf dem Informationsgehalt basiert. Der auch Entropie genannte Informationsgehalt eines Attributs A ist definiert als

wobei a_i die möglichen Werte des Attributs A darstellt und p die Wahrscheinlichkeit bzw. relative Häufigkeit für das Auftreten von a_i in der Trainingsmenge ist. Wird nun eine Beispielmenge E durch das Attribut A und dessen Ausprägungen in die Teilmengen E₁, E₂, …, E_k zerlegt, so lässt sich der Informationsgewinn (IG), der durch die Wahl des Attributs A erzielt wird, wie folgt definieren:

Beim Lernen des Entscheidungsbaums wird der Informationsgewinn für jedes Attribut berechnet und es wird dasjenige Attribut ausgewählt, das den höchsten Informationsgewinn erzielt. I(E) entspricht der Entropie der Daten vor der Aufteilung durch das Attribut und ist für alle möglichen Wahlen des Attributs gleich. Varianten des Entscheidungsbaumlernens sind CART (Classification and Regression Tree) und C5.0, die auch andere Heuristiken wie Gain Ratio oder Gini Index für die Auswahl der Attribute verwenden.

Instanzbasierte Lernverfahren basieren auf der Idee, dass ähnliche Objekte auch ähnlichen Klassen angehören [Aha et al. 1991]. Die Klassifizierungsvorhersage erfolgt anhand eines Vergleichs des neuen, noch nicht klassifizierten Datensatzes mit den gespeicherten Instanzen (Trainingsdaten). Die Klasse derjenigen Instanz, zu dem der neue Datensatz am ähnlichsten ist, wird als Klasse für den neuen Datensatz vorhergesagt. kNN stellt ein instanzbasiertes Verfahren dar, bei dem die Daten als Punkte in einem Vektorraum aufgefasst und gespeichert werden. Das Training des Verfahrens besteht darin, die vorhandenen Daten zu speichern und ein geeignetes k für die k-nächsten-Nachbarn zu identifizieren sowie Gewichte für die relevanten Attribute festzulegen. Zur Vorhersage betrachtet man bei einem neuen Datensatz die Klassen der k-nächsten-Nachbarn zu dem neuen Datensatz. Bei einer einfachen Mehrheitsentscheidung wird die in der Umgebung der k-nächsten-Nachbarn am häufigsten auftretenden Klasse vorhergesagt. Es empfiehlt sich jedoch, dass der Anteil eines Nachbarn zur Entscheidung gewichtet wird und mit zunehmender Distanz zum neuen Datensatz abnimmt. Bei einem zu kleinen k wie beispielsweise k = 1 oder k = 2 ist das Verfahren anfällig gegenüber Ausreißern sowie Rauschen und weist eine hohe Varianz auf. Bei einem zu großen k werden lokale Muster ignoriert und keine passenden Vorhersagen mehr getroffen. Das Verfahren hat dann eine hohe Ungenauigkeit. Bei kNN stellt die Auswahl der Attribute, die bei der Distanzberechnung berücksichtigt werden sollen, und deren Gewichtung ein wichtiger Vorverarbeitungsschritt dar, der die Qualität der Vorhersage beeinflusst. Attribute, die einen geringen Einfluss auf die Klassifikation haben, werden entsprechend gering gewichtet. Zur Berechnung der Distanz wird zwar häufig das euklidische Distanzmaß verwendet, wobei in diesem Fall eine Skalierung der Wertebereiche notwendig ist, es können jedoch auch andere Distanzfunktionen wie beispielsweise die Mahalanobis-Distanz, die auch die Kovarianzen der Attribute berücksichtigt, verwendet werden.

Bei instanzbasierten Verfahren werden keine expliziten Modelle wie beim Entscheidungsbaum gelernt, weshalb man diese Verfahren auch als »lazy learners« bezeichnet. Je mehr Trainingsdaten vorhanden sind, desto größer ist folglich auch der notwendige Speicherplatz, um das »Modell« zu speichern, das nur aus den Datenpunkten besteht. Eine Herausforderung stellt auch die performante Identifizierung der k-nächsten-Nachbarn für einen neuen Datenpunkt dar. Die Auswahl einer passenden Datenstruktur zur Speicherung der Daten ist zwingend notwendig. Die Erweiterung der Trainingsmenge um neue Datensätze ist im Vergleich zu anderen Verfahren jedoch sehr einfach, da nur die Daten gespeichert werden müssen und keine explizite Aktualisierung des Modells notwendig ist. Dieses Re-Training kann bei anderen Verfahren durchaus zeitintensiv sein.

Bei der linearen Diskriminanz wird davon ausgegangen, dass die Instanzen der Klassen linear trennbar sind. Liegen beispielsweise nur zwei Klassen {–1, 1} vor, so lässt sich dies wie in der Abbildung 5–9 visualisieren. Eine Support Vector Machine (SVM) sucht nun eine optimale Ebene H, im zweidimensionalen Fall eine Linie, um die Punkte der beiden Klassen zu trennen, wobei die Ebene durch die Gleichung H = {x|x^T β + β₀ = 0} beschrieben wird. Die Ebene ist optimal, wenn diese den maximalen Abstand (Margin) von den Instanzen der zwei Klassen hat. Man bezeichnet diese Ebene deshalb auch als Maximum Margin Hyperplane. Punkte auf der einen Seite gehören zu einer Klasse und die Punkte auf der anderen Seite zur anderen Klasse. Der breite Rand zwischen den Klassen, in dem sich keine Instanzen befinden, stellt sicher, dass auch neue Instanzen, die nicht genau den Trainingsdaten entsprechen, möglichst korrekt klassifiziert werden. SVM sind aus der statistischen Lerntheorie hervorgegangen und sind mathematisch sehr gut untersucht.

Abb. 5–9Support Vector Machine für zwei Klassen mit einer trennenden (Hyper-)Ebene H

Jedoch weisen nicht alle Machine-Learning-Probleme eine lineare Struktur auf und lassen sich linear trennen. Dies kann zum einen daran liegen, dass Instanzen auf der »falschen« Seite der Hyperebene liegen, oder zum anderen, dass die Punkte insgesamt nicht linear separierbar sind. Liegt eine Instanz auf der falschen Seite der Hyperebene oder innerhalb des Randes, so kann man mithilfe von Straftermen und dem Soft-Margin-Ansatz weiterhin die SVM-Methode anwenden.

Verfügen die Datenpunkte des Problems grundsätzlich über keine lineare Struktur, so kann man auch für diese Art von Problemen SVM mit dem sogenannten Kernel-Trick anwenden. Eine Kernel-Funktion transformiert die Trainingsinstanzen, die als Vektoren aufgefasst werden, in einen höher-dimensionalen Vektorraum, in dem die Trainingsdaten dann durch SVM linear trennbar sind, wobei dies im Ursprungsvektorraum einer nicht linearen Trennung entspricht. Mit Kernel-Funktionen und Soft Margin stellen Support Vector Machines sehr mächtige Machine-Learning-Modelle dar, die auch komplexe Muster erkennen können.

Jeder der Data-Mining-Algorithmen hat seine Stärken und Schwächen, sodass es eine naheliegende Idee ist, verschiedene Methoden oder ein Data-Mining-Algorithmus in Varianten mit unterschiedlichen Parametern in einem Modell zu kombinieren, um die Vorhersage insgesamt genauer und stabiler zu machen. Dieses Vorgehen bezeichnet man als Ensemble-Methode und es konnte gezeigt werden, dass Ensemble-Methoden im Vergleich zu Basisalgorithmen, wie einem Entscheidungsbaum, eine höhere Genauigkeit erzielen können. So ist XGBoost [Chen & Guestrin 2016] eines der erfolgreichsten Verfahren bei Wettbewerben und liefert bei Problemstellungen mit Daten aus Datenbanken oder BI-Systemen in der Regel sehr gute Ergebnisse.

Beim Bagging (Bootstrap aggregating) werden mehrere Basismodelle miteinander kombiniert und die Vorhersage des kombinierten Modells erfolgt dann per Mehrheitsentscheidung [Breiman 1996]. Jedes Basismodell wird auf einer Bootstrap-Stichprobe der Trainingsmenge trainiert. Eine Bootstrap-Stichprobe entsteht, indem man aus dem ursprünglichen Datensatz der Größe n Instanzen mit Zurücklegen zufällig zieht, bis die ursprüngliche Anzahl n von Instanzen erzeugt wurde. In dieser neuen Datenmenge der Größe n können nun Instanzen mehrmals oder auch gar nicht vorkommen. Für jedes Basismodell wird der Vorgang wiederholt, sodass jedes Basismodell auf einer etwas anderen Bootstrap-Stichprobe trainiert wird.

Boosting basiert auf der Idee, iterativ ein Ensemble-Modell aus Basismodellen zu erstellen, wobei das i-te Basismodell insbesondere die Trainingsdaten berücksichtigt, die in dem vorgehenden i-1-ten Schritt falsch klassifiziert wurden [Freund et al. 1999]. Der Algorithmus versucht, Trainingsdaten, die schwer zu klassifizieren sind, richtig zu klassifizieren. Gradient Boosting und die Implementierung XGBoost sind eine der erfolgreichsten Data-Mining-Methoden.

5.4Unüberwachte Lernverfahren und Clustering

Durch Clustering werden Datensätzen nach bestimmten Kriterien gruppiert [Sullivan 2001, S. 71]. Der Abstand der Datensätze in einem Cluster soll minimal und zwischen den Clustern maximal sein [Dörre et al. 2001, S. 439]. Grundsätzlich gilt, dass, wenn alle Datensätze auf Cluster verteilt sind, eine vollständige Verteilung vorliegt, während sonst nur eine partielle Verteilung besteht. Ein Datensatz kann mehreren Clustern zugeteilt werden, dabei entsteht eine überlappende Einteilung [Manning & Schütze 2000, S. 499]. Diese Art der Einteilung wird Soft Clustering genannt, da im Gegensatz zum Hard Clustering keine klare Zuteilung vorgenommen wird [Manning & Schütze 2000, S. 499]. Über eine Mittelung aller Datenelemente eines Clusters wird der Centroid bestimmt, der das idealtypische Element des Clusters darstellt [Salton 1989, S. 341]. Die Ähnlichkeit bzw. der Abstand der Datensätze zueinander ist über ein zweckdienliches Maß zu bestimmen. Hierzu werden vor allem die Cosinus-Distanz

D_c (A, B) = 1 – S_c(A, B)

mit

oder die euklidische Distanz

verwendet. Alternativ stehen noch die Manhattan-Distanz

d₁ (x, y) = |x₁ – y₁| + … + |x_n – y_n|

und die Maximums-Distanz

d_∞ (x, y) = max (|x₁ – y₁| + …, |x_n – y_n|)

zur Verfügung. Die euklidische Distanz lässt sich immer dann einsetzen, wenn Luftlinien-Entfernungen relevant sind. Anders die Manhattan-Distanz, bei der eine Luftlinie aufgrund einer rechteckigen Ausgangslage nicht möglich ist. Am Beispiel von Manhattan kann man sich vorstellen, dass man um die Häuserblöcke herumgehen muss, um zum Ziel zu gelangen. Die Maximums-Distanz findet in technischen Systemen ihren Einsatz. Zu nennen sind hier das Bohren von Platinen, die Bewegung von Kränen oder Plotterstiften.

Die meisten Methoden basieren auf einer Ähnlichkeitsmatrix. Diese wird üblicherweise mittels des Gower-Koeffizienten gebildet, der wie folgt definiert ist:

wobei für nominale Merkmale:

und für numerische Merkmale:

mit

R_i = x_max – x_min

gilt.

Hierauf aufbauend lässt sich der nächste Nachbar identifizieren [Rasmussen 1992, 422 f.].

Um Clustering durchzuführen, lassen sich verschiedene Methoden anwenden. Zunächst sind partitionierende von hierarchischen Methoden zu unterscheiden [Chamoni & Budde 1977, S. 21]. Problematisch gestaltet sich bei partitionierenden Methoden die Einteilung multidimensionaler Vektoren in disjunkte Cluster. Eine Variante ist die Single-Pass-Clusterung (SPC). Die hierarchischen Methoden unterteilen sich weiter in agglomerative und divisive Methoden. Für die divisiven Methoden stehen nur wenige Algorithmen zur Verfügung, diese werden zudem selten genutzt [Rasmussen 1992, S. 425]. Im Folgenden werden die Hierarchisch Agglomerative Clusterung (HAC), die SPC sowie die Self-Organizing Map (SOM), die zugleich eine Visualisierung der Ergebnisse vornimmt, erläutert.

Die Hierarchisch Agglomerative Clusterung bildet zunächst für jeden Datensatz jeweils ein Cluster und vereinigt anschließend jeweils zwei von diesen schrittweise nach bestimmten Kriterien [Kraft et al. 2000, S. 251 f.]. Dies wird wiederholt, bis alle Datensätze in einem Cluster vereint sind und somit die Abfolge der verschiedenen Clusterungen feststeht. So kann für die jeweiligen Anforderungen eine geeignete Anzahl an Cluster gewählt werden, womit der Betrachtungshorizont durch die Wahl einer Stufe mit höherer Aggregation erweitert wird [Meier 2000, S. 74]. Neben der Methode der Vereinigung ist das Abstandsmaß der hierarchisch agglomerativ gebildeten Cluster entscheidend für die Ergebnisqualität. Hierbei werden die folgenden Varianten der Clusterbildung unterschieden [Zavrel 1995, S. 18]:

Single Linkage (jeweils die minimale der vorliegenden Ausprägungen ist als neuer Wert zu wählen):
Complete Linkage (jeweils die maximale der vorliegenden Ausprägungen ist zu wählen):
Group Average (es ist der gewichtete Durchschnitt der vorliegenden Ausprägungen als Wert für das neue Cluster zu berechnen):
Ward’s Method (Summe der quadrierten Abweichungen zwischen dem Centroid eines Clusters und dessen Elementen):
d_ij = d ({X_i}, {X_j}) = ||X_i –X_j||²

Die Methoden der Vereinigung zeichnen sich durch bestimmte Vor- und Nachteile aus und sind problembezogen zu wählen, wobei heutzutage alle Linkage-Verfahren parallel durchgeführt werden. Bei der Vereinigung ist zu beachten, dass nur das jeweilige lokale Optimum erzielt wird, da keine Berücksichtigung der Abhängigkeiten in den nachfolgenden Schritten stattfindet [Pullwitt 2003, S. 3]. Zudem weist die HAC, in Abhängigkeit von der Entscheidung, ob und in welcher Art die Speicherung der Ergebnisse erfolgt, eine hohe Komplexität auf.

Die SPC betrachtet einen Datensatz nur zum Zeitpunkt der Zuteilung zu einem Cluster. Mit dem ersten Datensatz entsteht das erste Cluster. Im Anschluss werden die folgenden Datensätze je nach Ähnlichkeit den bestehenden Clustern zugeteilt oder eigenen neuen Clustern zugewiesen. Die Methoden der Zuteilung sind mit denen des HAC identisch. Im Vergleich zum HAC ist das SPC trivialer und benötigt daher weniger Rechenzeit. Jedoch variieren die Clusterkarten bei unterschiedlicher Abfolge der Datensätze im Rahmen der Zuteilung. In den meisten Fällen ist eine quantitative Unausgewogenheit zugunsten der am Anfang gebildeten Cluster zu konstatieren. Anschließend an die Primäreinteilung der HAC und SPC kann eine iterative Verbesserung der Cluster erfolgen. Hierzu kann der k-means Algorithmus eingesetzt werden, dem eine Kostenfunktion zugrunde liegt. Über ein Gradientenabstiegsverfahren wird versucht, ein weiteres lokales Optimum zu realisieren.

Problematisch ist insbesondere die Bestimmung der Attribute und des Ähnlichkeits- bzw. Abstandmaßes, auf denen die Clusterung basiert [Rasmussen 1992, S. 420 f.; S. 427]. Die euklidische Distanz hat sich als Abstandsmaß bewährt. Durch eine Darstellung der Ergebnisse mittels einer Übertragung hochdimensionaler Vektoren in einen niedrigdimensionalen Raum lässt sich die Analyse visuell durchführen [Runkler 2000, S. 29]. Die hochdimensionalen Vektoren werden hierzu in einem niedrigdimensionalen Raum dargestellt. Diese Visualisierung kann für bestimmte Teilmengen oder die Gesamtmenge von Datensätzen in einem ein-, zwei- oder dreidimensionalen Raum vorgenommen werden [Card et al. 2007, S. 409].

Die Self-Organizing Map (SOM) ist eine unüberwachte Methode [Kohonen 2002, S. 8], die eine direkte Visualisierung der Ergebnisse durch Cluster ermöglicht [Sullivan 2001, S. 202 f.]. Die Methode SOM ist dem menschlichen Gehirn nachempfunden [Miikkulainen 1993, S. 114]. Bestimmte Themenbereiche sind auf der Hirnrinde des Gehirns regional organisiert. Dies versucht die SOM durch die regionale Anordnung wichtiger Merkmale ebenso vorzunehmen [Kohonen 2001, S. 106]. Darüber hinaus werden bei der SOM Neuronen verwendet, die für die Organisation der Merkmale zuständig sind. Die klassische SOM besteht aus einer Inputschicht und einem Netzwerk aus Neuronen [Kohonen 2002, S. 1]. Die hochdimensionalen Vektoren der Datensätze werden an die Inputschicht angelegt und in niedrigdimensionale Vektoren transformiert, die auf einer sogenannten Neuronenkarte abgebildet werden [Kohonen 2001, S. 106]. Die strukturierte Karte spannt einen diskreten Raum auf, wobei ähnliche Datensätze eine geringere Distanz zueinander aufweisen [Merk & Rauber 2000, S. 102]. Die Inputschicht ist über gewichtete Verbindungen mit jedem Neuron des Netzwerkes verknüpft [Chamoni & Budde 1977, S. 370]. Die Anzahl an Neuronen ist durch die benötigte Anzahl der Cluster determiniert [Nürnberger et al. 2003, S. 123]. Zwischen den Neuronen einer Karte bestehen Nachbarschaftsbeziehungen, wobei sich diese in einem konkurrierenden Prozess selbstständig herausbilden [Tauritz 1996, S. 28; Zavrel 1995, S. 24]. Die folgende Abbildung illustriert beispielhaft die Beziehungen der Komponenten einer hexagonalen SOM. Neben der hexagonalen Organisation der SOM kann standardmäßig die rechteckige Anordnung der Neuronen in Form eines Gitters vorgenommen werden [Pullwitt 2003, S. 9; Runkler 2000, S. 41].

Abb. 5–10Self-Organizing Map (in Anlehnung an [Nürnberger et al. 2003, S. 124])

In der Lernphase werden die aus den Datensätzen abgeleiteten Vektoren ξ dem Netz präsentiert und bei dem Siegerneuron s mit dem höchsten Aktivierungsniveau [Nürnberger et al. 2003, S. 123 f.] eine Anpassung der Gewichte u_s vorgenommen, indem sie an den Eingabevektor angenähert werden. Wird nur das gewinnende Neuron bezüglich seiner Gewichte angepasst, wird dieses mit Wettbewerbslernen bzw. Competitive Learning umschrieben [Fritzke 1992, S. 30]. Die benachbarten Neuronen werden bezüglich ihrer Gewichte angenähert. Die gesamte Trainingskollektion wird dem Netz mehrmals in zufälliger Reihenfolge präsentiert und nach jedem angelegten Vektor eine Gewichtsanpassung vorgenommen [Merkl 2002, S. 905]. Hierdurch wird eine Struktur erzeugt, die ähnliche Datensätze auf der Karte gruppiert [Miikkulainen 1993, S. 116; Zavrel 1995, S. 24]. Die SOM bestimmt selbstständig die wichtigen Kriterien und ordnet die Datensätze nach diesen richtig an.

Bezüglich der Inputvektoren besteht die Notwendigkeit, dass deren Gewichte die gleiche Dimensionalität aufweisen wie die der Neuronen. Als Ähnlichkeitsmaß wird auch hier vor allem die euklidische Distanz verwendet [Mandl 2000, S. 24; Nürnberger et al. 2003, S. 123 f.]. Hierbei nimmt die Lernrate, die die Stärke der Modifikation bestimmt, in einem definierten Verhältnis ab [Fritzke 1992, S. 17]. Dadurch erhält das System eine gewisse Konsistenz.

In diesem Zusammenhang ist auf das Dilemma hinzuweisen, das sich aus den Forderungen nach Anpassungsfähigkeit und Stabilität ergibt [Tauritz 1996, S. 24 f. und S. 28]. Durch die Forderung der Anpassungsfähigkeit sind neue Informationen ebenfalls abbildbar. Hierdurch darf die Lernrate jedoch nicht zu stark vermindert werden. Verändert sich ein Netz hierdurch zu stark und ein Datensatz wird deswegen einem anderen Cluster zugewiesen, kann dies zu einer Instabilität des Systems führen. Weitere Probleme ergeben sich bei der Abbildung neuer Datensätze, die nicht in die bestehende Clusterstruktur einzuordnen sind. Kleinere Änderungen können durch Aufnahme der Datensätze und Einordnung zu dem nächstgelegenen Neuron durchgeführt werden. Bei größeren Änderungen kann eine Anpassung der bestehenden Karte durch eine erneute Lernphase vorgenommen werden. Gelingt dieses nicht, ist die Karte völlig neu zu erstellen [Nürnberger et al. 2003, S. 128]. Eine weitere Gefahr besteht darin, dass die Karte bei der Entfaltung in Abhängigkeit von den Parametern und den angelegten Datensätzen stark streut oder in einem einzigen Punkt endet. Die vorgegebene Größe der Karte ist somit anzupassen [Nürnberger et al. 2003, S. 124]. Eine Möglichkeit zur Behebung dieses Problems besteht in der Verwendung einer automatisch wachsenden Karte [Nürnberger et al. 2003, S. 124], wobei die Verteilung der angelegten Vektoren durch die Karte angenähert wird [Kohonen 2002, S. 8]. Allgemeine Kritik an dem SOM-Ansatz kann an der übermäßigen Komplexitätsreduktion festgemacht werden [Mandl 2000, S. 80 f.], wodurch wichtige Zusammenhänge verloren gehen können. Die nachfolgende Abbildung zeigt eine Self-Organizing Map zur Auswertung der Charakteristika von Website-Besuchern. Während die obere zunächst eine allgemeine Einordnung zu den ausgeführten Aktionen gibt, differenziert die untere in mehreren Teilbildern nach Attributen, sodass sich jeweils für den Gesamtdatensatz zeigen lässt, welche Aktionen von welchen Charaktergruppen (= Attributen) ausgeführt werden.

Abb. 5–11Beispiel Self-Organizing Map aus dem Werkzeug Viscovery

5.5Reinforcement Learning

Neben dem Supervised Learning (überwachtes Lernen, für das ein entsprechender Trainingsdatenbestand mit bekannten Daten zu erzeugen ist) und dem Unsupervised Learning (unüberwachtes Lernen, bei dem eine direkte Algorithmusanwendung auf dem jeweiligen Datenbestand stattfindet) bildet das Reinforcement Learning (bestärkendes Lernen) die dritte Gruppe der Lernverfahren. Es ist ein rechenintensiver Ansatz zum Lernen durch Interaktion. Dem Algorithmus, also dem Lerner, wird vorab nicht mitgeteilt, welche Maßnahmen zu ergreifen sind, wie in vielen Formen des maschinellen Lernens, sondern stattdessen muss der Algorithmus durch Ausprobieren entdecken, welche Handlungen zielführend sind. Dies wird dem Lerner durch eine dann entsprechende positive (Bonus), aber auch negative (Malus) Belohnung mitgeteilt. Dabei handelt es sich um sogenannte Closed Loop-Probleme, da sowohl durch eine Aktion des Lerners als auch die jeweilige Belohnung alle nachfolgenden Handlungen beeinflusst werden. Um nun eine Menge Bonus zu erhalten, muss ein Lerner Handlungen bevorzugen, die bereits in der Vergangenheit genutzt wurden und bei denen die Aussicht besteht, dass diese wieder zu einem Bonus führen. Aber um solche Aktionen zu entdecken, muss der Algorithmus Aktionen ausprobieren (exploit), die er vorher nicht ausführte. Das bedeutet nun aber, dass der Algorithmus von seiner Wissensbasis abhängig ist und ausnutzen muss, was er bereits kennt, um Belohnung zu erhalten. Darüber hinaus muss er auch erforschen (explore), was noch möglich ist, um in Zukunft eine bessere Handlungsauswahl zu betreiben. Das Dilemma ist, dass weder Exploration noch Exploitation losgelöst von der Ausführung der Aufgabenstellung verfolgt werden können Das heißt, dass es keine Lern- und Anwendungsphasen gibt, sondern sich der Algorithmus durch das Ausprobieren einer Vielzahl von Aktionen und Auswahl der zu dem jeweiligen Zeitpunkt am besten geeigneten Aktion schrittweise der Lösung der Aufgabenstellung nähert. Ein in diesem Zusammenhang wichtiges Merkmal des Verstärkungslernens ist es, dass es ausdrücklich die gesamte Problemstellung betrachtet, die sich im Spannungsfeld einer unsicheren Umgebung bewegt. Alle Algorithmen, die dieses Lernparadigma nutzen, haben jedoch explizit formulierte Ziele, können Aspekte ihrer Umgebungen aufnehmen und wählen Aktionen, um das Ziel zu erreichen. Es ist in der Regel von Anfang an davon auszugehen, dass der Agent trotz der signifikanten Ungewissheit über die Umwelt, mit der er konfrontiert ist, zu agieren hat. Wenn das Reinforcement Learning mit der Planung einhergeht, muss es das Zusammenspiel von Planungs- und Echtzeitaktionsauswahl sowie die Frage, wie Umweltmodelle erworben und verbessert werden, adressieren [Sutton & Barto 2018].

5.5.1Aspekte des Reinforcement Learning

Verfeinert betrachtet ist Reinforcement Learning ein Oberbegriff zur Beschreibung einer Anwendungsklasse, die sich nicht nur mit der Lösungserzeugung beschäftigt, sondern darüber hinaus die dazu erforderlichen Lösungsmethoden untersucht (hierzu und im Folgenden: [Sutton & Barto 2018; Prinz 1994; Teuteberg 2001; Kelly & Hamm 2013; Deng & Yu 2014]). Solche Algorithmen beinhalten insbesondere das Erlernen, was zu tun ist und wie die Erkenntnisse über Situationen in Aktionen zu übertragen sind, um letztlich ein numerisches Belohnungssignal zu maximieren. Im Wesentlichen sind dies Probleme mit geschlossenen Regelkreisen, da die Aktionen des lernenden Systems wiederum die späteren Eingaben beeinflussen. Darüber hinaus wird dem Lerner nicht mitgeteilt, welche Aktionen zu ergreifen sind, wie dies beispielsweise bei vielen Formen des maschinellen Lernens üblich ist. Stattdessen muss er eigenständig herausfinden, welche Aktionen die meiste Belohnung bringen, indem er sie ausprobiert. In den interessantesten und dabei auch schwierigsten Fällen können Aktionen nicht nur die unmittelbare Belohnung, sondern auch die nächste Situation und damit alle nachfolgenden Belohnungen beeinflussen. Die wichtigsten Unterscheidungsmerkmale des Reinforcement Learning sind diese drei Aspekte:

geschlossene Regelschleife,

keine direkte Handlungsanweisung und

die Aufgabe, wo die Konsequenzen von Handlungen, einschließlich Belohnungssignalen, über längere Zeiträume hinweg ablaufen.

Dabei geht es im Kern nun darum, die wichtigsten Aspekte des realen Problems zu erfassen, vor dem ein lernender Agent im Sinne eines maschinellen Aufgabenträgers steht, der zur Zielerreichung mit seiner Umgebung interagiert. Dazu muss ein solcher Agent in der Lage sein, den Zustand der Umgebung in dem für ihn relevanten Rahmen zu erfassen und Maßnahmen zu ergreifen, die diesen Zustand in der Art und Weise beeinflussen, dass die Zielerreichung des Agenten wahrscheinlich wird. Im Kontext der Zielformulierung wird es dadurch aber relevant, dass diese drei Aspekte

Empfindung,
Handlung und
Ziel

in ihren einfachsten möglichen Formen einschließen. Jede Methode, die zur Lösung solcher Probleme gut geeignet ist, wird dadurch zu einer Verstärkungsmethode.

Reinforcement Learning unterscheidet sich vom überwachten Lernen, dem Lerntyp, der in den meisten aktuellen Forschungen auf dem Gebiet des maschinellen Lernens untersucht wird. Überwachtes Lernen nutzt einen Trainingssatz mit markierten Beispielen zum Lernen, die von einem sachkundigen externen Fachvertreter zur Verfügung gestellt sind. Jedes Beispiel ist eine Beschreibung einer Situation zusammen mit einer Klassifikationszuordnung (Label) und damit verbunden mit der richtigen Aktion, die das System in dieser Situation ergreifen sollte. Üblicherweise handelt es sich dabei um zu identifizierende Kategorien, zu der die Situation gehört. Das Ziel dieser Art des Lernens besteht darin, dass das System seine Antworten so verallgemeinert, dass es in Fällen, die im Trainingssatz nicht vorhanden sind, korrekt agiert. Dies ist eine wichtige Art des Lernens, aber alleine reicht es nicht aus, aus der Interaktion zu lernen und Weiterentwicklungspotenziale zu identifizieren. Bei interaktiven Problemen ist es oft unpraktisch, Beispiele für das gewünschte Verhalten zu erhalten, die sowohl korrekt als auch repräsentativ für alle Situationen sind, in denen der Agent handeln muss. Auf unbekanntem Gebiet, bei dem man erwarten würde, dass das Lernen am nützlichsten ist, muss ein Agent in der Lage sein, aus seinen eigenen Erfahrungen zu lernen und Ergebnisse zu produzieren.

Ebenso besteht eine Unterscheidung zum unüberwachten Lernen. Bei diesem geht es in der Regel darum, Strukturen zu finden, die in Sammlungen nicht markierter Daten verborgen sind. Im Kontext des maschinellen Lernens sind diese beiden Verfahren die üblichen, die jedoch nicht umfänglich alle Aufgabenstellungen adressieren und Lerneffekte erzielen. Unüberwachtes Lernen und bestärkendes Lernen gehören nicht zusammen, da erstgenanntes kein Belohnungssignal zu maximieren sucht, sondern sich vielmehr auf das Auffinden einer verborgenen Struktur konzentriert. Natürlich kann die Strukturidentifikation beim Lernen hilfreich sein, aber adressiert eben nicht, ein Belohnungssignal zu maximieren.

Eine der Herausforderungen, die beim Lernen im Bereich der Verstärkung und nicht bei anderen Arten des Lernens auftreten, ist der Kompromiss zwischen Exploration und der vollständigen Auswertung der vorhandenen Datengrundlage. Um eine Belohnung zu erhalten, muss ein verstärkender Lernagent Aktionen vorziehen, die er in der Vergangenheit versucht hat und die sich als effektiv bei der Belohnung erwiesen haben. Um solche Aktionen zu entdecken, muss dieser jedoch Aktionen ausprobieren, die zuvor nicht ausgewählt wurden. Der Agent muss diese Erkenntnisse vollständig in Betracht ziehen und somit vorhandenes Wissen auswerten, um eine Belohnung zu erhalten. Dabei sind auch Varianten auszuwerten, um in der Zukunft bessere Handlungsoptionen zu identifizieren. Das Dilemma ist, dass weder Exploration noch vollständige Ausnutzung ausschließlich Verfahrensansätze sind. Der Agent muss eine Vielzahl von Aktionen ausprobieren und nach und nach diejenigen bevorzugen, die am besten erscheinen. Bei einer stochastischen Aufgabe muss jede Aktion viele Male versucht werden, um eine zuverlässige Schätzung ihrer erwarteten Belohnung zu erhalten. Dieses sogenannte Exploration-Exploitation-Dilemma wird seit Jahrzehnten von Mathematikern intensiv untersucht.

Ein weiteres Schlüsselmerkmal des Reinforcement Learning ist es, dass es explizit das gesamte Problem eines zielgerichteten Agenten betrachtet, der mit einer unsicheren Umgebung interagiert. Dies steht im Gegensatz zu vielen Ansätzen, die ein Gesamtproblem in Teilprobleme herunterbrechen und dabei nicht mehr das große Bild im Auge behalten. Alle Ansätze im Reinforcement Learning weisen jedoch explizite Ziele auf, können Aspekte ihrer Umgebung wahrnehmen und können Aktionen wählen, um ihre Umgebung zu beeinflussen.

Darüber hinaus wird von Anfang an üblicherweise davon ausgegangen, dass der Agent trotz erheblicher Unsicherheit über die Umwelt zu agieren hat. Wenn verstärktes Lernen mit Planung einhergeht, muss es sich um das Zusammenspiel zwischen Planung und Auswahl von Handlungsalternativen in Echtzeit sowie um die Frage, wie Umweltmodelle erworben und verbessert werden, handeln. Wenn verstärkendes Lernen überwachtes Lernen beinhaltet, geschieht dies, um wichtige Fähigkeiten zu integrieren. Damit Lernforschung Fortschritte machen kann, müssen wichtige Teilprobleme isoliert und untersucht werden, aber sie sollten Teilprobleme sein, die in vollständigen, interaktiven, zielsuchenden Agenten eindeutige Rollen spielen, auch wenn noch nicht alle Details des vollständigen Agenten ausgefüllt werden können.

Ein vollständiger, interaktiver und zielsuchender Agent kann eine Komponente eines Systems mit einem mehr nach außen gerichteten Verhalten sein. In diesem Fall interagiert der Agent direkt mit dem Rest des größeren Systems und indirekt mit der Umgebung des größeren Systems. Ein einfaches Beispiel ist ein Agent, der den Ladezustand der Batterie des Roboters überwacht und Befehle an die Steuerungsarchitektur des Roboters sendet. Die Umgebung dieses Agenten ist der Rest des Roboters zusammen mit der Umgebung des Roboters. Man muss über die offensichtlichsten Beispiele von Agenten und ihren Umgebungen hinausblicken, um die Allgemeinheit des Verstärkungslernrahmens zu schätzen.

Reinforcement Learning ist Teil eines jahrzehntelangen Trends innerhalb der künstlichen Intelligenz und des maschinellen Lernens hin zu einer stärkeren Integration mit Statistik, Optimierung und anderen mathematischen Ansätzen. Beispielsweise spricht die Fähigkeit einiger Verstärkungslernmethoden, mit parametrisierten Approximatoren zu lernen, den klassischen Fluch der Dimensionalität aus dem Operations Research und der Control Theory an. Von allen Formen des maschinellen Lernens ist verstärkendes Lernen dem Lernen des Menschen am nächsten und viele der Kernalgorithmen des Verstärkungslernens wurden ursprünglich von biologischen Lernsystemen inspiriert.

Letztendlich gehört verstärkendes Lernen auch zu einem größeren Trend in der künstlichen Intelligenz. Seit den späten 1960er-Jahren vermuten zwar viele Forscher künstlicher Intelligenz, dass es keine allgemeinen Prinzipien zu entdecken gibt und dass Intelligenz stattdessen durch den Besitz einer großen Anzahl von Prozeduren und Heuristiken mit speziellem Zweck vordefiniert ist, sodass lediglich genügend relevante Fakten in eine Maschine zu bringen sind, um diese intelligent zu machen. Methoden, die auf allgemeinen Prinzipien basieren, wie Suchen oder Lernen, wurden als schwache Methoden charakterisiert, während solche, die auf spezifischem Wissen basieren, starke Methoden genannt wurden. Diese Ansicht ist heute im Kontext der künstlichen Intelligenz noch üblich, jedoch weniger dominant. Die moderne KI umfasst Forschung, die nach allgemeinen Prinzipien des Lernens, der Suche und der Entscheidungsfindung sucht und dabei große Mengen an Domänenwissen zu integrieren versucht. Das Reinforcement Learning ist hierbei ein Weg zurück zu einfacheren und weniger allgemeinen Prinzipien der künstlichen Intelligenz.

5.5.2Bestandteile eines Reinforcement-Learning-Systems

Jenseits des Agenten und der Umgebung kann man vier Hauptelemente eines verstärkenden Lernsystems identifizieren (vgl. hierzu und im Folgenden [Sutton & Barto 2018; Prinz 1994; Teuteberg 2001; Kelly & Hamm 2013; Deng & Yu 2014]):

eine Vorgehensweise,
ein Belohnungssignal,
eine Wertefunktion und
optional ein Modell der Umgebung und damit eine erfasste Wissensstruktur.

Eine Vorgehensweise definiert das Verhalten des Lernagenten zu einem bestimmten Zeitpunkt. Dabei handelt es sich im Kern um eine Zuordnung von wahrgenommenen Zuständen der Umwelt zu Maßnahmen, die in diesen jeweiligen Status ergriffen werden müssen, was den Stimulus-Response-Regeln oder Assoziationen aus der Psychologie entspricht. In einigen Fällen kann die Vorgehensweise eine einfache Funktion oder eine Lookup-Tabelle sein, während sie in anderen Fällen eine umfangreiche Berechnung wie einen Suchprozess beinhalten kann oder stochastisch ist. Die Vorgehensweise ist der Kern eines Reinforcement-Learning-Systems, da diese das Verhalten bestimmt.

Ein Belohnungssignal definiert das Ziel im Reinforcement Learning. Bei jedem Abarbeitungsschritt sendet die Umgebung an den Verstärkungslernagenten einen einzelnen Wert, die sogenannte Belohnung. Das einzige Ziel des Agenten ist es, die gesamte Belohnung, die er über den gesamten Ablauf erhält, zu maximieren. Das Belohnungssignal definiert somit die guten (Bonus) und schlechten (Malus) Ereignisse für den Agenten. Sie sind die unmittelbaren und definierenden Reaktionsmerkmale des Problems, dem der Agent gegenübersteht. Daher muss der Prozess, der das Belohnungssignal erzeugt, durch den Agenten unveränderbar sein. Der Agent kann jedoch das Bonus/Malus-Signal, das der Prozess direkt durch seine Aktionen erzeugt, indirekt ändern, indem er den Zustand seiner Umgebung ändert, da das Belohnungssignal vom jeweils erzeugten Zustand abhängt. Jedoch lässt sich die signalerzeugende Funktion nicht ändern. Somit kann der Agent das vorliegende Problem nicht einfach in ein anderes übertragen. Das Belohnungssignal ist die primäre Grundlage für die Änderung der Vorgehensweise. Wenn eine ausgewählte Aktion durch eine niedrige Belohnung gekennzeichnet ist, lässt sich der nächste Schritt im Rahmen der Vorgehensweise ändern, um in dieser Situation bei einem zukünftigen Durchlauf eine andere Aktion auszuwählen. Im Allgemeinen können Belohnungssignale stochastische Zustandsfunktionen über die Umgebung und der ergriffenen Maßnahmen sein. Während das Belohnungssignal anzeigt, was im unmittelbaren Hier und Jetzt gut ist, gibt eine Wertefunktion an, was auf lange Sicht gut ist. Grob gesagt, ist der Wert eines Status die Summe der Belohnungen, die ein Agent über die Zukunft von diesem Status aus erzielen kann. Während Belohnungen die unmittelbare, intrinsische Erwünschtheit von Umweltzuständen bestimmen, weisen Werte auf die langfristige Erwünschtheit von Status nach Berücksichtigung der wahrscheinlich noch folgenden Status und der in diesen Status verfügbaren Belohnungen hin. Beispielsweise kann ein Status immer eine niedrige unmittelbare Belohnung erzielen, aber letztlich zu hohen Summenwerten führen, weil ihm regelmäßig andere Status folgen, die hohe Belohnungen erzielen. Dadurch wird eine langfristige Nutzenperspektive formalisiert und nicht nur eine kurzfristige Einmalhandlung.

Belohnungen selbst sind in gewissem Sinne direkt wirkend, während vorhergesagte Werte als Belohnungen nachrangig wirken. Somit rückt die Wertefunktion in den Vordergrund, denn ohne die Entwicklungsschritte durch eben diese Funktion, basierend auf dem Belohnungssystem, könnte es keine Erkenntnisse aus den vorhandenen Strukturen geben und der einzige Zweck der Vorabschätzung von Werten ist es, mehr Belohnung zu erreichen. Nichtsdestotrotz sind es die final ermittelten Strukturen, mit denen letztlich gearbeitet wird und Entscheidungen getroffen werden. Da Handlungsentscheidungen Werturteile darstellen, sind Handlungen gesucht, die den höchsten Wert und nicht die höchste Belohnung mit sich bringen, denn diese Handlungen erzeugen auf lange Sicht den größten Nutzen. Die einzelnen Belohnungen werden jedoch grundsätzlich direkt aus der vorliegenden Situation heraus erzeugt, sodass die Schätzung dieser Werte anhand von Beobachtungssequenzen auszuführen ist, die ein Agent während seiner gesamten Lebenszeit macht. Somit ist eine solche Erfahrungskomponente wichtig zur effizienten Schätzung von Werten, da durch diese die Wege in Datenbeständen vorgegeben werden.

Das vierte und letzte Element der Reinforcement-Learning-Ansätze ist ein Modell der Umwelt. Dies ist etwas, das das Verhalten der Umgebung nachahmt bzw. das Rückschlüsse darauf zulässt, wie sich die Umgebung verhält. Bei einem Zustand und einer Aktion kann das Modell beispielsweise den resultierenden nächsten Zustand und die nächste Belohnung vorhersagen. Modelle werden für die Planung verwendet, womit jede Art der Entscheidung über einen Handlungsablauf adressiert wird, indem mögliche zukünftige Situationen betrachtet werden, bevor diese tatsächlich stattfinden. Methoden zur Lösung von verstärkenden Lernproblemen, die Modelle und Planung verwenden, werden als modellbasierte Methoden bezeichnet. Im Gegensatz dazu stehen einfache modellfreie Methoden, bei denen es sich explizit um Versuch-und-Irrtum-Lerner handelt, die das Gegenteil zur Planung darstellen.

Modernes Verstärkungslernen umfasst somit ein weites Spektrum von einfachen Ansätzen über Versuch-und-Irrtum-Lernen bis zu umfassenden deliberativen Ansätzen. Letztlich geht es aber darum, Wissen zu erzeugen und zu nutzen, um eine Aufgabe automatisiert bearbeiten respektive lösen zu können.

5.6Evaluation

Bezüglich der Evaluation von Modellen sei für überwachte Lernverfahren zunächst die in Abschnitt 5.3.1 vorgestellte Aufteilung von Daten in Erinnerung gerufen. Aus dem ersten Datensatz wurde eine Unterteilung in Trainings-, Validierungs- und Testdaten vorgenommen. Trainingsdaten sind dabei die Daten für eine erste Modellgenerierung. Validierungsdaten ermöglichen die Verfeinerung des Modells und Testdaten lassen die Prüfung der allgemeinen Gültigkeit des Modells zu. Bei überwachten Lernverfahren können nun zumindest bei Validierungs- und Testdaten Vergleiche zwischen der tatsächlichen Ausprägung der Zielvariablen und der durch das Modell vorhergesagten Ausprägung der Zielvariablen vorgenommen werden.

Im Allgemeinen gibt es eine Vielzahl an Qualitätsmaßen zur Beurteilung der Ergebnisgüte von Algorithmen. Letztlich sollte jeder Anwender für sich entscheiden, welches Maß die passende Aussage für den jeweils gegebenen Fall ermöglicht. Im Folgenden werden nun aber prominente Beispiele dargestellt, die im Rahmen von Klassifikations- und Clusteraufgaben Anwendung finden (vgl. hierzu [Witten & Frank 2001; Beekmann & Chamoni 2006]).

5.6.1Ausgewählte Qualitätsmaße im Kontext von Klassifikationsaufgabenstellungen

Die mittlere quadratische Abweichung (Mean Squared Error, MSE) als ein hier erstes dargestelltes Maß drückt aus, wie sehr ein Punktschätzer um den zu schätzenden Wert streut. Damit beschreibt das Maß also die Abweichung eines Schätzers vom zu schätzenden Wert. Ein geringer Wert bedeutet, dass man sich in der Nähe des Wertes befindet und dass Verzerrung und Varianz des Schätzers somit klein sind. Grundsätzlich kann es dazu genutzt werden, Schätzverfahren zu vergleichen, wobei dann die Regel gilt, dass dasjenige Verfahren zu nutzen ist, das den kleinsten MSE aufweist.

Die Missklassifikationsrate (Missclassification Rate, MCR) ist ein einfaches Maß und prüft, wie hoch die Anzahl der fehlerhaft geschätzten Werte ist. Besteht allerdings eine Imbalance, also eine sich deutlich unterscheidende Anzahl an Werten in den jeweiligen Trainingsklassen, im zugrunde liegenden Datensatz, verliert dieser Wert an Aussagekraft.

Genauigkeit (Accuracy) drückt die Nähe der Messung, in diesem Falle der Klassifikation, zu dem wahren Wert aus und findet in überwachten Lernverfahren Anwendung. Somit besteht die Aussage darin, in einem Wert auszudrücken, wie viele Fälle korrekt klassifiziert worden sind.

Im Kontext der Erstellung einer Konfusionsmatrix (Confusion Matrix) werden insbesondere Präzision (Precision) und Spezifität (Specitivity) in die Betrachtung mit einbezogen. Die folgende Abbildung zeigt das Konzept der Matrix, die auch für den Mehrklassenfall erstellt werden kann. Sie enthält stets alle vorhergesagten Daten, also beispielsweise für einen Testdatensatz mit 100 Datensätzen die Ergebnisse auf der Grundgesamtheit von 100 Datensätzen. Die Summe der vier Felder ergibt somit stets die Grundgesamtheit, also für den Beispielfall 100.

Abb. 5–12Konfusionsmatrix für einen binären Schätzer

Eine solche Matrix setzt die Ausprägungen der Wertevorhersagen zu den tatsächlichen Werten ins Verhältnis, was über

True Positives (Vorhersage ist 1 und der tatsächliche Wert ist auch 1),
False Positives (Vorhersage ist 1, jedoch ist der tatsächliche Wert 0),
True Negatives (Vorhersage ist 0 und der tatsächliche Wert ist auch 0) und
False Negatives (Vorhersage ist 0, jedoch ist der tatsächliche Wert 1)

ausgedrückt wird. In diesem Zusammenhang werden die False Positives als Fehler erster Art (Alpha-Fehler) bezeichnet und die False Negatives als Fehler zweiter Art (Beta-Fehler).

Ein einfaches Beispiel soll die Konfusionsmatrix näher erläutern. Bei der Entwicklung eines Vorhersagemodells sollen Kunden erkannt werden, bei denen die Gefahr der Abwanderung gegeben ist, das bedeutet, dass bei sogenannten Abwanderern die Zielvariable Abwanderung den Wert 1 (positiv) annimmt.

Es liegen dazu 100 Kundendatensätze vor, die sowohl Datensätze zu abgewanderten als auch nicht abgewanderten Kunden enthalten. Natürlich kann in diesem Datensatz nicht abschließend sicher gesagt werden, ob alle noch nicht als Abwanderer erkannten Kunden auch weiterhin noch Kunden sind. Dennoch wird dies einstweilen als tatsächlicher Zustand begriffen. Es ist bekannt, welche 60 Kunden nicht abgewanderte Kunden sind und welche weiteren 40 Kunden bereits abgewandert sind.

Insgesamt wurden durch ein Vorhersagemodell 45 Kunden als abgewanderte Kunden ausgewiesen, davon waren 35 Kunden tatsächlich Abwanderer (True Positives) und 10 tatsächlich keine Abwanderer (False Positives). 55 Kunden hat das Vorhersagemodell als keine Abwanderer ausgewiesen, davon waren 50 tatsächlich keine Abwanderer (True Negatives) und weitere 5 waren tatsächlich Abwanderer (False Negatives). Abbildung 5–13 zeigt das Ergebnis des Tests in der Konfusionsmatrix.

Abb. 5–13Konfusionsmatrix für das Beispiel Abwanderungsprävention

Neben der bereits vorgestellten Missklassifikationsrate und der Genauigkeit lassen sich nun die folgenden Maße bestimmen. Alle Maße bilden Kombinationen der vier Felder der Matrix sowie entsprechender Summen über Spalten und Zeilen ab.

Sensitivität, Trefferquote, Recall, True Positive Rate (TPR)	Das Verhältnis sagt aus, welcher Anteil der tatsächlich positiven auch tatsächlich positiv vorhergesagt wurde, und gibt damit die Wahrscheinlichkeit an, mit der ein positiver Wert als positiver erkannt wird. Sensitivität = TP / (FN + TP) Am Beispiel der Abwanderererkennung sind es 35/(5 + 35) = 87,5%.
Falsch-Negative-Rate, False Negative Rate (FNR)	Das Verhältnis sagt aus, welcher Anteil der tatsächlich positiven fälschlicherweise negativ klassifiziert wurde, und gibt damit die Wahrscheinlichkeit an, mit der ein negativer Test tatsächlich positiv ist. Falsch-Negative-Rate = FN / (TP + FN) Am Beispiel der Abwanderererkennung sind es die Abwanderer, die fälschlicherweise nicht als Abwanderer erkannt werden. Es ergibt sich FNR = 5 / (35 + 5) = 12,5%.
Spezifität, True Negative Rate (TNR), kennzeichnende Eigenschaft	Das Verhältnis sagt aus, welcher Anteil der tatsächlich negativen auch als negativ erkannt wurde. Es gibt die Wahrscheinlichkeit an, mit der ein in Wirklichkeit negativer Wert auch als negativer vorhergesagt wird. Spezifität = TN / (TN + FP) Am Beispiel der Abwanderererkennung sind es 50/(50 + 10) = 83,3%. Es entspricht der Aussage, dass ein nicht Abwandernder zu 83,3% als solcher erkannt wird.
Ausfallquote, Falsch-Positive-Rate, False Positive Rate (FPR), Fallout	Das Verhältnis sagt aus, welcher Anteil der tatsächlich negativen nicht als negativ erkannt wird. Aus der Addition der Ausfallquote und der Spezifität müssen sich 100% ergeben. Ausfallquote = FP / (TN + FP) Am Beispiel der Erkennung der Abwanderer sind es 10/(50 + 10) = 16,7%. Das bedeutet, dass 16,7% als Abwanderer angezeigt werden, die tatsächlich keine Abwanderer sind.
Relevanz, Präzision, Genauigkeit, Precision, Positive Predicted Value (PPV)	Das Verhältnis sagt aus, welcher Anteil der insgesamt positiv vorhergesagten auch tatsächlich positiv ist. Dieser Wert gibt die Wahrscheinlichkeit an, dass ein positiv vorhergesagter Wert auch tatsächlich positiv ist. Relevanz = TP / (TP + FP) Am Beispiel der Erkennung der Abwanderer sind es 35/(35 + 10) = 77,8%. Es entspricht der Aussage, dass ein als Abwanderer klassifizierter Kundendatensatz zu 77,8% auch tatsächlich ein Abwanderer ist.
Genauigkeit, Accuracy	Die Genauigkeit wurde fachlich in ihrer Bedeutung bereits erläutert. Anhand der Konfusionsmatrix errechnet stellt sie sich als das Verhältnis der korrekt positiv und korrekt negativ erkannten zu der Gesamtmenge der klassifizierten Datensätze dar. Genauigkeit = (TP + TN) / (TP + FP + TN + FN) Am Beispiel der Erkennung der Abwanderer wäre die Accuracy (35 + 50)/(35 + 10 + 50 + 5) = 85%. Das entspricht der Aussage, dass 85% aller Kundendatensätze korrekt (als Abwanderer und Nicht-Abwanderer) erkannt werden.
Prävalenz, Prevalence	Die Prävalenz entspricht dem Anteil der Positiven an der Grundgesamtheit der Daten. Sie zeigt demnach unabhängig von der Vorhersage, welchen Anteil die positive Ausprägung der Zielvariablen hat, und ist daher im eigentlichen Sinne kein Parameter zur Beurteilung der Modellgüte. Prävalenz = (TP + FN) / (TP + TN + FN + FP) Am Beispiel der Erkennung der Abwanderer gibt es den Anteil der Abwanderer an allen untersuchten Kundendatensätzen an. Sie entspricht für den Beispielfall (35 + 5)/(35 + 50 + 5 + 10) = 40%.
F-Maß	Um zur Beurteilung der Güte eines Modells nicht ein einzelnes Maß zu stützen und der gegenseitigen Beeinflussung der Gütemaße Rechnung zu tragen, bietet sie eine Kombination der Maße an. Insbesondere beim Vergleich von Modellen kann so eine gemeinsame Größe definiert werden, die eine direkte Gegenüberstellung ermöglicht. Das F-Maß nutzt hierfür eine Gleichgewichtung von Relevanz (Precision) und Sensitivität (Recall). F-Maß = 2 × (Relevanz × Sensitivität) / (Relevanz + Sensitivität) Am Beispiel der Abwanderererkennung ist das F-Maß= 2 × (0,778 × 0,875)/(0,778 + 0,875) = 0,824.
Fα-Maß	Ebenso wie das F-Maß bietet das Fα-Maß die Kombination der beiden Gütemaße Relevanz und Sensitivität an, allerdings mit einer gewählten Gewichtung α <>0 gegeneinander, also nicht zwingend gleichverteilt wie beim F-Maß. Setzt man α = 1, so sind die beiden Gütemaße wieder gleichgewichtet und somit gilt F(α = 1)-Maß= F-Maß. Für α >1 wird die Sensitivität höher gewichtet, für 0 < α <1 die Relevanz.
	Bei der Kombination und Gewichtung von Gütemaßen ergibt sich der Vorteil, dass unterschiedliche Auswirkungen bei der Bewertung eines Modells berücksichtigt werden können. Betrachtet man den Test nach der Rückzahlungsfähigkeit eines Kreditnehmers für einen Kredit, so ist die Erkennung von nicht rückzahlungsfähigen Kreditnehmern für eine Bank wichtiger als die Vergabe eines Kredites mit in Zeiten von Niedrigzinsen ohnehin niedrigen Margen. Ebenso ist finanziell betrachtet der Verlust eines Kunden möglicherweise betriebswirtschaftlich bewertet teurer als eine Neukundengewinnung. Somit ist die Sensitivität für die beschriebenen Beispiele höher zu gewichten als die Relevanz. Fα-Maß = (1 + α²) × (Relevanz × Sensitivität) / (α² × Relevanz + Sensitivität) Am Beispiel der Erkennung von Abwanderern ist das F2 - Maß= (1 + 2²) × (0,778 × 0,875)/(2² × 0,778 + 0,875) = 0,854

Eine Optimierung eines Gütemaßes findet unter Beeinflussung der anderen Gütemaße statt. Zeigt ein Test eine hohe Sensitivität und schlägt damit sehr früh an, so mag er auch viele FP vorhersagen. Daher ist die Spezifität gering.

Die Receiver Operating Characteristic (ROC) ist ein häufig verwendeter Graph, der die Qualität eines Klassifikators zusammenfasst. Die Grundidee stammt aus der Zielstellung, feindliche Schiffe auf einem Radar als solche zu identifizieren, aber eben auch nur, wenn diese tatsächlich feindlich sind. Ein ROC-Diagramm setzt sich aus dem auf der x-Achse abgetragenen Wert 1-Spezifität und dem auf der y-Achse abgetragenen Sensitivitätswert zusammen. Wie bereits beschrieben, können für jedes Vorhersagemodell Sensitivität und Spezifität angegeben werden. Trägt man diese in ein ROC-Diagramm ein, so entstehen einzelne Punkte, die nach ihrer Lage im Raum bereits eine Aussage über die Güte im Vergleich zulassen. Nachfolgende Grafik zeigt ein solches ROC-Diagramm, in dem das zuvor beschriebene Beispiel der Abwanderungsprävention (schwarzer Punkt), ein ideales Modell (grauer Punkt) und die Zufallsgerade (durch die Punkte (0, 0) und (1, 1)) eingetragen sind. Trägt man nun mehrere Modelle in das Diagramm ein, so sind diese durch die Lage der Punkte vergleichbar. Je weiter weg sich ein Punkt oberhalb der Gerade befindet und je weiter er damit in Richtung des perfekten Modells liegt, das die Koordinate (0, 1) repräsentiert, umso besser ist das Modell, zu dem der Punkt gehört.

Abb. 5–14ROC-Diagramm

Das ROC-Diagramm beschreibt über mehrere Schwellenwerte hinweg die Güte des Modells. Es wird erzeugt, indem beispielsweise die True Positives (y-Achse) gegen die False Positives (x-Achse) aufgetragen werden oder aber die Sensitivität (y-Achse) gegen die Spezifität (x-Achse), wie in der nachstehenden Abbildung geschehen.

Abb. 5–15Beispiel eines ROC-Charts

Die Interpretation des ROC-Diagramms fokussiert nun die Fläche unterhalb der jeweiligen Kurven (Area under Curve, AUC). Die 45-Grad-Diagonale repräsentiert den Zufall. Das bedeutet auch, dass alles, was sich unterhalb dieser Diagonalen befindet, schlechter als der Zufall in Bezug auf die Zielvariable ist (und damit eine Umpolung des Tests möglich wäre). Ein ideales Vorhersagemodell würde einen Punkt (0, 1) ergeben und damit die Fläche unter der Kurve maximieren.

Letztlich kann man aber nun Algorithmen dahingehend vergleichen, dass der Klassifikator, der die größte Fläche erzielt, damit auch die höchste Klassifikationsgüte erreicht. Einschränkend muss jedoch gesagt werden, dass es manchmal sinnvoll sein kann, nur Teile der Kurven zu betrachten und nicht die vollständigen ROC, sodass beispielsweise niedrige FP-Ergebnisse erzielbar sind, die aber in der Gesamtbetrachtung untergehen würden. Somit unterstützt ein ROC, genauso wie die Konfusionsmatrix, die Optimierung eines Algorithmus, um hochwertigere Ergebnisse zu erzielen [Witten & Frank 2001]. Zudem schneiden sich wie im rechten Bild gezeigt zuweilen die Kurven im ROC-Diagramm, sodass eine einfache optische Erkennung des besseren Algorithmus nur innerhalb konkreter Grenzen möglich ist.

5.6.2Ausgewählte Qualitätsmaße im Kontext von Clusterungen

Analog zu der Evaluation von Klassifikationsverfahren existieren auch bei der Bewertung von Clusterverfahren mehrere Ansätze. An dieser Stelle werden jedoch lediglich drei herausgegriffen, die im Folgenden beschrieben werden.

Der Index Root Mean Square Standard Deviation (RMSStD) ist die Wurzel aus der quadrierten Standardabweichung aller Variablen. Dazu wird die Summe der quadrierten Abweichungen (QA) eines jeden Clusters c gebildet. Diese wird mit dem Produkt aus der Anzahl k der Elemente in einem Cluster und der Anzahl n der Variablen normiert.

Grundsätzlich wird bei jedem Schritt des hierarchischen Algorithmus ein Maß der Homogenität der Clustererstellung gebildet. Somit gilt, je kleiner der Wert des RMSStD, desto besser ist das Cluster gebildet. Zu jeder hierarchischen Stufe, wenn der RMSStD Wert steigt, wird das neue Clusterschema schlechter [Sharma 1996].

Davies-Bouldin(DB)-Index. Sei k die Anzahl der Cluster zu einem gegebenen Schritt im hierarchischen Clustering. Dabei wird das Clusterzentrum und die Clustergröße bezeichnet. Dann ist der DB-Index definiert als

wobei	Güte des Clusterschemas:

	Maß der Verteilung des Clusters:

	mit v_{x_i} als Centroid des Clusters i
	Ungleichheitsmaß zwischen den Clustern:
	d_ij = d (v_x_i, v_{x_j})

Der Index quantifiziert die durchschnittliche Gleichheit zwischen einem Cluster und seinem ähnlichsten Pendant. Die Cluster sollen voneinander möglichst verschieden sein. Das ideale Clustering ist eines, das den DB-Index minimiert [Davies & Bouldin 1979].

Der PseudoF-Index misst im Kontext des k-Means einerseits die Kompaktheit (Compactness), also dass Clustermitglieder so eng wie möglich zu einander gruppiert sind (within cluster sum of squares, WSS). Andererseits wird die Trennung der Cluster selbst bewertet, also dass diese so weit wie möglich voneinander entfernt liegen (between cluster sum of squares, BSS).

wobei

n =	Anzahl der Datenobjekte
k =	Anzahl der Cluster
BSS =	Summe der quadrierten Abweichungen der Elemente zwischen Clustern
WSS =	Summe der quadrierten Abweichungen der Elemente innerhalb eines Clusters

Im Vergleich ist dann die Konstellation zu wählen, die den größten PseudoF-Indexwert aufweist, da dieses Cluster dann in sich kompakt ist und gleichzeitig wahrnehmbar entfernt von anderen Clustern positioniert ist [Caliński & Harabasz 1974].

5.7Weitere Ansätze

5.7.1Deep Learning

Deep Learning ist ein aktueller Bereich der Forschung auf dem Gebiet des maschinellen Lernens. Traditionelle Ansätze verwenden Merkmalsextraktion und modalitätsspezifische Algorithmen des maschinellen Lernens, um Bildelemente zu identifizieren oder Sprache zu erkennen. Nachteile bestehen sowohl in der Lösungszeit als auch in der Genauigkeit. Heutige neuronale Netze für Deep Learning verwenden Algorithmen, Big Data und die Rechenleistung der Graphical Processing Unit (GPU), um Verbesserungen zu erzielen. Mit Verfahren des Deep Learning verbessern Maschinen die Analyse von Rohdaten und die Ableitung maschinell zu verarbeitenden Wissens sowie den Aufbau von Wissensnetzwerken [Deng & Yu 2014]. Eine ausführliche Einführung in neuronale Netze und Deep Learning erfolgt in Kapitel 7.

5.7.2Cognitive Computing

Mit Cognitive Computing besteht ein weit gefasster Begriff, um die Simulation des menschlichen Denkprozesses in einem computerisierten Modell mit maschinell selbstlernenden Systemen, die Data Mining, Mustererkennung und Verarbeitung natürlicher Sprache nutzen, zu benennen. Ziel ist die Schaffung automatisierter IT-Systeme, die Probleme ohne menschlichen Eingriff lösen. Solche Systeme erwerben kontinuierlich Wissen von den ihnen durch Data Mining zugeführten Daten. Cognitive Computing wird in der künstlichen Intelligenz (KI), Expertensystemen, NLP, neuronalen Netzen, der Robotik und der virtuellen Realität eingesetzt [Kelly & Hamm 2013].

5.8Fazit

Für Problemstellungen in Unternehmen gibt es in der Data Science eine Vielfalt an Methoden, die zur Lösung der Problemstellung infrage kommen. Es empfiehlt sich, mehrere Methoden auf die Problemstellung anzuwenden, Modelle zu lernen und deren Güte miteinander zu vergleichen. Für die Analyse von Bildern, Videos und Audio sind Deep-Learning-Verfahren (siehe dazu Kap. 7) zu empfehlen, bei Klassifikationsaufgaben, die tabellarische Daten aus ERP-, CRM-Systemen etc. nutzen, können Methoden wie Random Forest oder Gradient Boosting sowie Varianten davon sehr gute Ergebnisse erzielen. Nicht immer benötigt man ein sehr ausgefeiltes Verfahren, um betriebswirtschaftlich nützliche Lösungen zu erhalten. Es ist für den Projektverlauf sehr wichtig, dass man zu Beginn festlegt, nach welchen Kriterien und nach welchen Qualitätsmaßen man das Ergebnis bewerten möchte. Die Frage des Deployments und nach der Produktivumgebung sollte auch so früh wie möglich im Projektverlauf adressiert werden, um das als gut bewertete Modell ohne große Verzögerung produktiv setzen zu können.