Kapitel 19

Klassifikation

IN DIESEM KAPITEL

Klassifikation modellieren
Analyse von Mitarbeiterfluktuation

Grundlagen Klassifikation

Bislang ging es bei Smart Predict um metrisch skalierte Zielvariablen. Diese Modelle sind beispielsweise für eine Absatz- oder Umsatzprognose geeignet. Genauso bedeutend im Machine Learning sind jedoch auch kategoriale Vorhersagen, also Schätzungen von Ausprägungen wie beispielsweise Kündiger / Nichtkündiger, Antworter / Nichtantworter, Käufer / Nichtkäufer oder Maschinenausfall / kein Maschinenausfall. Welche Einflussgrößen lassen es nun wahrscheinlich werden, dass ein Mitarbeiter kündigt? Verallgemeinert heißt das: Gesucht ist der Zusammenhang von unabhängigen Variablen (Prediktoren) zur (kategorialen) Zielvariablen. Diese Zielvariable (zum Beispiel Kaufentscheidung oder Kündigung) wird mit unabhängigen Variablen (zum Beispiel Dauer der Kundenbeziehung, Kaufverhalten) auf der Basis von Ist-Daten verglichen und mögliche Abhängigkeiten werden herausgearbeitet. So könnte es beispielsweise eine Abhängigkeit zwischen der Dauer der Kundenbeziehung und der Kaufwahrscheinlichkeit geben. In der Regel sind die Einflüsse multivariat, mit anderen Worten: Mehrere Einflüsse sind erkennbar.

Eine typische Aufgabestellung ist die Fokussierung auf kaufwillige Kunden. Die Analyse soll Hilfestellung bei der Priorisierung von Maßnahmen geben. Werbemaßnahmen können effektiver gestaltet werden, wenn die Kaufneigung aufgrund von Kundeneigenschaften besser eingeschätzt werden kann. Welche Konsequenzen ergeben sich hieraus? Zum einen sind häufig die finanziellen Konsequenzen zu berücksichtigen. Man will beispielsweise nicht unbedingt jeden Kunden halten. Ein Kundenwert kann die Entscheidung, Erhaltungsmaßnahmen einzuleiten, unterstützen. Gruppen mit der höchsten Kaufwahrscheinlichkeit könnten primär kontaktiert werden.

Beim Entscheidungsbaumverfahren wird jeweils anhand einer unabhängigen Variablen ein Zusammenhang zur Zielvariablen quantifiziert. Im Anschluss werden die Daten so aufgeteilt, dass die entstehenden Gruppen hinsichtlich der Zielvariablen homogener sind. Es erfolgt grundsätzlich eine binäre Aufteilung. Entscheidungskriterien wie beispielsweise der Gini-Koeffizient werden zur Eignung der Klassengrenzen herangezogen. Die so entstandenen (in der Regel zwei) Untergruppen versucht man dann nochmals hinsichtlich der Zielvariablen homogener aufzugliedern. Beim Entscheidungsbaumverfahren werden solche Regeln nach Signifikanz über die Einflussgrößen angewendet.

Eine typische resultierende Regel könnte sein: »Wenn eine Kundenbeziehung länger als zwei Jahre dauert und dieser Kunde einen Kaufanteil an elektronischen Artikeln von mehr als 50 % hat, beträgt die Kaufwahrscheinlichkeit 40 %.«

Smart Predict nutzt Gradient Boosting, eine Erweiterung des Entscheidungsbaumverfahrens. Es werden mehrere einfache Entscheidungsbäume generiert. Boosting ist eine Ensemble-Learning-Methode, bei der das Modell sequenziell trainiert wird und jedes neue Modell versucht, das vorherige zu korrigieren. Es kombiniert mehrere schwache Lerner zu einem starken Lerner.

Abwanderungsanalyse

Hier soll ein einfaches Beispiel gewählt werden, nämlich eine Abwanderungsanalyse von Mitarbeitern (Attrition). Mitarbeiter kündigen, das ist ganz normal. Allerdings ist es auch ganz normal, dass man bestimmte Mitarbeiter lieber halten würde als andere Mitarbeiter. Wenn man also im Vorfeld besser abschätzen könnte, welche Mitarbeiter abwanderungsgefährdet sind, könnte man versuchen, die wichtigen Mitarbeiter zum Bleiben zu motivieren. Ein Sonderbonus kann hier helfen. Wir brauchen also Hinweise über die binäre Variable »Kündiger / Nichtkündiger«.

Jedes Unternehmen weiß mittlerweile doch sehr viel über die eigenen Mitarbeiter. Manchmal auch mehr als notwendig. Insofern sind solche Analysen immer kritisch und auch vom Betriebsrat zustimmungspflichtig.

Der Lösungsansatz ist eine typische Klassifikation. Schauen Sie sich alle Mitarbeiterstammsätze an (auch von denjenigen, die gekündigt haben). Was waren signifikante Merkmale, warum Mitarbeiter gekündigt haben?

Es sind allerdings nicht unbedingt Gründe, denn der Algorithmus kann nur Korrelationen, nicht Kausalitäten erkennen. Nicht einmal die Richtung ist eindeutig. Die Kündigungsrate könnte beispielsweise hoch sein, weil die Stimmung nicht gut ist, oder die Stimmung ist nicht gut, weil so viele Mitarbeiter kündigen und die Arbeit damit neu aufgeteilt werden muss.

Lassen Sie uns eine solche Analyse aufbauen.

Legen Sie ein neues Prognoseszenario an.

Zunächst einmal brauchen wir wieder Daten.
Laden Sie die Daten SacFuerDummiesMitarbeiterabwanderungTraining.csv und SacFuerDummiesMitarbeiterabwanderungPrognose.csv hoch (Abbildung 19.1).

Training enthält wieder die Kündigungsinformation, während Prognose nur nicht gekündigte Mitarbeiter enthält.

Abbildung 19.1: Hochladen der Trainings- und Anwendungsdateien

Ein kleiner Haken ist schon dabei: Sie trainieren mit ehemaligen Mitarbeitern, die gekündigt haben, und Mitarbeitern, die nicht gekündigt haben. Die Prognose soll allerdings bestehende Mitarbeiter hinsichtlich der Abwanderung beurteilen. Das sind aber auch zwangsläufig Mitarbeiter, die bereits in der Trainingsmenge enthalten sind.

Auch Zeitaspekte werden vernachlässigt. Irgendwann kündigen die meisten Mitarbeiter (wenn sie nicht durch Ruhestand, Arbeitgeberkündigung und so weiter das Unternehmen verlassen).

Der Algorithmus kann natürlich schon auf der Basis der Trainingsdatei entscheiden, wie hoch die Abwanderungswahrscheinlichkeit ist. Das ist aber nicht so zweckmäßig, da Ihre potenzielle Zielgruppe nicht gekündigt hat. Auf der anderen Seite ist es aber auch problematisch, Ihre Zielgruppe vom Training auszuschließen. Die hat vielleicht eine besondere Eigenschaft, zum Beispiel könnten dies High Performer sein. Das Weglassen diese Gruppe verzerrt die Analyse.

Es ist zudem eine volatile Sicht: Die, die nicht kündigen, könnten unmittelbar vor der Kündigung stehen. Insofern ist es sinnvoll, die Analyse häufiger zu aktualisieren.

Wir sehen eine Vielzahl von Kennzahlen und Dimensionen (Abbildung 19.2) wie Tätigkeitsbereich, Geschlecht, Alter, Betriebszugehörigkeit und so weiter. Im Gegensatz zur Regression finden wir die Zielvariable HasLeft nicht bei den Kennzahlen, sondern bei den Dimensionen.

Es ist wieder keine Aufbereitung der Daten notwendig. Das ist zwar selten in realen Situationen der Fall, aber im Fokus steht ja die Analyse. Planen Sie den Aufwand bei der Aufbereitung ein. Schließlich gehen in einem typischen Predictive-Analytics-Projekt gerne bis zu 90 % der Zeit mit der Datenaufbereitung drauf. Fehlende Daten, Ausreißer und so weiter müssen identifiziert und gegebenenfalls bereinigt werden. Das kann richtig viel Zeit kosten.

Legen Sie nun ein Klassifikationsszenario an (Abbildung 19.3).

Abbildung 19.2: Datenset zur Prediction

Abbildung 19.3: Anlage einer Klassifikation
Speichern Sie das Szenario unter Abwanderung.
Ordnen Sie dem Szenario unsere Trainingstabelle zu. Das zu prognostizierende Attribut ist HasLeft (Abbildung 19.4).
Nun kann man auch noch Einflussgrößen ausschließen, die also nicht in die Analyse einfließen sollen. Damit wird das Modell schlanker und somit die Rechenzeit reduziert. Aspekte wie Mitarbeitername sollten keinen Einfluss auf die Kündigungsneigung haben.

Abbildung 19.4: Konfiguration der Klassifikation
Schließen Sie also Manager Description, LocationID (Location bleibt aber), Employee und Employee_Desc von der Analyse aus (Abbildung 19.5).

Vorsicht geboten ist auch hier wieder mit dem Schlüssel. Hierin stecken manchmal verdeckte Merkmale wie Mitarbeiterzugehörigkeit, Organisation und so weiter. Hieraus könnte man schon Einflussgrößen ableiten. In unserem Fall nehmen wir den Schlüssel aber aus der Analyse heraus.
Trainieren Sie nun das Modell. Ein bisschen Geduld ist auch hier wieder gefragt.

SAC überrascht uns nach der Wartezeit mit vielen wichtigen Informationen (Abbildung 19.6):

Die prognostische Trennschärfe gibt an, wie oft das System beim Testen richtig lag. 84,5 % hört sich erst mal gut an. Die Aussage ist allerdings gefährlich, denn die Güte hängt auch davon ab, wie häufig die gesuchte Zielausprägung im Trainingsset vorhanden ist. Was ist in unserem Fall wichtig? Wir wollen ja wissen, wie oft der Algorithmus Kündiger erkannt hat. Wenn nur 2 von 100 Personen gekündigt haben und der Algorithmus alle 100 Personen als Nichtkündiger identifiziert (trivial), hat der Algorithmus eine Trennschärfe von 98 %. Bei der eigentlichen Aufgabe, die Kündiger zu identifizieren, hat er aber vollständig versagt.
Ein wichtiger Indikator für die Beurteilung ist auch das Verhältnis zwischen den Ausprägungen der Zielkategorie im Training und in der Validierung. Smart Predict unterteilt die Daten in Trainings- (75 %) und Validierungsdaten (25 %). Im Validierungsset sind 11,03 % als Kündiger identifiziert worden, etwas höher als im Trainingsset.

Abbildung 19.5: Ausschließen von Einflussfaktoren

Abbildung 19.6: Analyseübersicht
Die Prognosekonfidenz liegt bei 87,7 %. Der Algorithmus testet mehrfach mit unterschiedlichen Trainings- und Validierungsmengen über eine sogenannte Kreuzvalidierung, bei der mehrfach eine zufällige Aufteilung zwischen Trainings- und Validierungsdaten vorgenommen wird. Je enger die Testergebnisse beieinander liegen, desto höher ist die Prognosekonfidenz.
Wichtig ist auch, welche Einflussgrößen den größten Erklärungsgehalt haben. In unserem Beispiel ist es die Erfahrung (Abbildung 19.6).

Etwas schwieriger zu verstehen ist die Darstellung der Zielentwicklung (Abbildung 19.7). Diese bezieht sich auf das Validierungsset. Die rot markierte Linie (die Diagonale) repräsentiert einen zufälligen Zugriff. Wenn Sie beispielsweise 50 % rein zufällig ausgewählt haben, dann haben Sie auch im Mittel 50 % der Kündiger, also 50 % von 11,03 % im Validierungsset erwischt.

Das perfekte Prognosemodell, das heißt, Sie gehen von einer 100%-Vorhersagegenauigkeit aus, gibt Ihnen nach 11,03 % der Daten 100 % der Kündiger. Mit anderen Worten, Sie kennen Ihre Kündiger.

Und schließlich betrachten wir die Kurve unseres Modells. Zunächst werden alle Mitarbeiter nach der Höhe der Kündigungswahrscheinlichkeit sortiert. Am Anfang wählen wir die Mitarbeiter, von denen wir mit einer hohen Wahrscheinlichkeit davon ausgehen können, dass sie kündigen werden. Wenn wir also 10 % unserer Mitarbeiter (nach Kündigungswahrscheinlichkeiten sortiert) herausziehen, erwischen wir deutlich über 50 % der Kündiger. Also schon mal nicht schlecht. Allerdings lässt die Trefferquote nach. Wenn wir ca. 40 % der Grundgesamtheit gezogen haben, haben wir alle unsere Kündiger im Validierungsset erwischt. Die Fläche zwischen der blauen und der roten Kurve stellt die Verbesserung im Vergleich zur zufälligen Auswahl dar.

Und nun zu den Einflussfaktoren. Wie Sie erkennen können, ist die Erfahrung ein wichtiger Einflussfaktor. Also gilt, wir sollten uns besonders auf das Attribut Erfahrung konzentrieren. Aber auch das Gehalt erscheint wichtig.

Des Weiteren sehen Sie auch die Einflussstärke pro Kategorie (Abbildung 19.8). Man kann sagen, die Erfahrung wirkt sich positiv (also verstärkend) auf das Kündigungsverhalten aus (für das Unternehmen natürlich negativ).

Abbildung 19.8: Einflussstärke der Variablen

Die Verwechslungsmatrix (gebräuchlicher Confusion Matrix) gibt Ihnen einen Eindruck über die Güte des Modells (Abbildung 19.9). Von den 11,03 % Kündigern haben Sie etwas mehr als die Hälfte (6,21 % der Mitarbeiter) erkannt. Eigentlich gar nicht so gut, da Ihnen damit gut 40 % durch die Lappen gegangen sind. Diejenigen, die bleiben, haben Sie hingegen erstaunlich gut erkannt. Aber das ist gar nicht das Ziel. Also ist die Genauigkeit insgesamt schon gut, aber hinsichtlich Ihres Ziels eigentlich ziemlich begrenzt.

Daher ist insbesondere die Sensitivität interessant. Diese ergibt sich aus den erkannten Kündigern, dividiert durch alle Kündiger, also auch die nicht erkannten Kündiger.

Auf dem nächsten Reiter können Sie grob simulieren, was Ihnen das Ergebnis bringt. Ein kleines, aber feines Simulationsmodell lässt Sie den Wert des Modells erkennen. Sie können testen, was Ihnen die Fokussierung auf Personen mit hoher Abwanderungswahrscheinlichkeit bringt. Hierbei wird die Annahme getroffen, dass Ihr Bonus auch dazu führt, dass die Mitarbeiter bleiben. Das Modell arbeitet auf dem Validierungspart, sodass uns 500 Datensätze zur Analyse zur Verfügung stehen.

Hierzu geben Sie die Kosten für das positive Element an. Dies könnte beispielsweise ein besonderer Bonus sein (hier 10.000 Euro). Dann können Sie noch eingeben, was Ihnen die vermiedene Kündigung einspart, also Hiring-Kosten und Einarbeitung (hier 30.000 Euro). Am Anfang steht also der Deckungsbeitrag von 20.000,- pro gehaltenen Mitarbeiter, multipliziert mit einer hohen Wahrscheinlichkeit, dass dieser wirklich kündigen sollte.

Wenn Sie nun 5 Personen mit der höchsten Kündigungswahrscheinlichkeit einen Bonus von 10.000,- geben und davon sind 4 potenzielle Kündiger, die dann nicht kündigen, haben Sie einen Deckungsbeitrag von 5*-10.000,- + 4*30.000,- = 70.000,-.

Streuen Sie Ihre Bonuszahlung hingegen rein zufällig, erhalten. Sie 5*-10.000 + 1*30.000,- = -20.000,-. Das ist aber grob gerundet, da 11 % von 5 nur 0,55 sind. Aber eine halbe Kündigung gibt es ja nicht.

Sie können nun mit dem Schieberegler die Anzahl der sonderbonusberechtigten Personen so lange erhöhen, bis der Deckungsbeitrag der Bonusaktion nicht mehr steigt. Bei 16 Personen beträgt der Deckungsbeitrag 240.000,-.

Klicken Sie auf GEWINN MAXIMIEREN (Abbildung 19.10).

Das Optimum liegt bei 12 Kontakten (Abbildung 19.11), was Sie 120.000,- Bonus kostet, aber 9 Kündigungen (270.000) vermeidet und somit einen Deckungsbeitrag von 150.000 erbringt. Zahlen Sie den Bonus an zufällig ausgewählte Mitarbeiter, kommen Sie auf die gleichen Kosten, aber erreichen nur 11 % * 12 = 1,32, sodass ein Mitarbeiter gehalten werden kann. Dies erbringt einen Verlust von 90.000. Der theoretische Mehrwert des Modells beträgt also 240.000 (150.000 - (-) 90.000).

Abbildung 19.10: Ein kleines Simulationsmodell

Und schließlich haben wir noch weitere Performance-Kurven (Abbildung 19.12).

Die Lorenzkurve (nicht in der Abbildung) zeigt die Ungleichverteilung der Gruppen an. Es ist an sich nur eine Umkehr der Ihnen schon bekannten Kurve.
Die Liftkurve gibt pro identifizierter Gruppe an, wie das Verhältnis zwischen vorhergesagter Rate und der zufälligen Rate liegt. Im perfekten Modell ist dies anfangs also 100 % zu ca. 11,03 %, also die in Abbildung 19.12 gezeigten 9,06 % bei 0 bis ca. 10 % Population.

Abbildung 19.12: Performance-Kurven
Die Sensitivität ergibt sich aus den richtig erkannten Kündigern, dividiert durch alle Kündiger. Die Spezifität ergibt sich aus den Bleibenden, dividiert durch alle Bleibende. Im zufälligen Modell ist dieses Verhältnis konstant, im perfekten Modell ist die Sensitivität konstant 1.

Wenden Sie nun das Modell an. Klicken Sie auf das Fabrik-Symbol in der Task-Leiste.

Sie nutzen das Werkzeug also produktiv, daher die Fabrik als Symbol (Abbildung 19.13).

Abbildung 19.13: Erzeugung einer Ergebnistabelle
Wählen Sie die Datenquelle SacFuerDummiesMitarbeiterabwanderungPrognose.csv.

Diese enthält Mitarbeiter mit den Einflussgrößen, aber nicht das Zielattribut hasLeft. Alle untersuchten Mitarbeiter sind also noch an Bord.
Wählen Sie am besten alle vorhandenen Spalten aus (Abbildung 19.14).
Leider müssen Sie das händisch machen. Zumindest sollten Sie den Mitarbeiterschlüssel, Bezeichnung und die Einflussgrößen auswählen, wenn Ihnen das viele Klicken zu aufwendig ist.

Abbildung 19.14: Auswahl der Felder
Bei den Statistiken und Prognosen lassen Sie sich das ganze Set der Auswahlmöglichkeiten anzeigen.
Speichern Sie das Ergebnis als SacFuerDummiesMitarbeiterabwanderungErgebnis ab (Abbildung 19.15).
Schauen Sie sich nun das Ergebnis an. Öffnen Sie über die Dateiensicht die erstellte Datei (Abbildung 19.16).

Pro Mitarbeiter werden mehrere Datensätze angelegt. Pro relevanter Einflussgröße (es werden 10 ausgewählt) wird ein eigener Datensatz für jeden Mitarbeiter angelegt.
- Das Explanation Ranking ist einfach die Sortierung der Explanation Strength absteigend nach absoluter Größe.
- Wichtig sind insbesondere die Predicted Category und die zugehörige Stärke.

Abbildung 19.15: Anwendung des Prognosemodells

Schließlich kann man sich die Daten auch per Story auswerten lassen.

Wenn der Wunsch bei Ihnen aufkommen sollte, die Ergebnisse in ein Modell zu schreiben, dann müssen wir Sie enttäuschen. Bislang kann nur die Zeitreihe in Modelle schreiben. Zurzeit müssen Sie die Ergebnisse exportieren und dann in ein Modell importieren.

Erstellen Sie eine neue Story, am besten mit dem optimierten Entwurfserlebnis.
Erstellen Sie eine Tabelle und ordnen Sie das Datenset SacFuerDummiesMitarbeiterabwanderungErgebnis zu.
Ordnen Sie die Dimensionen und Elemente wie in Abbildung 19.17 dargestellt.
Ihre Mitarbeiter sind erstaunlich alt, oder (Abbildung 19.17)? Das liegt an der Struktur des Datensatzes. Auch hier sind wie bei der Regression wieder zwei Tabellen in eine Tabelle untergebracht: einmal die Daten zur Zielvariablen und dann die Daten zu den Einflussgrößen.

Abbildung 19.17: Eine erste Tabellensicht
Filtern Sie Predictive Category nach y.
Sortieren Sie nun noch die Abwanderungswahrscheinlichkeit nach Höhe (Abbildung 19.18).

Abbildung 19.18: Anwendung der Sortierung

Nun schaut es besser aus (Abbildung 19.19). Auf diese Mitarbeiter sollten Sie ein Augenmerk werden.

Vielleicht haben Sie bei Ihrem individuellen Ansatz noch andere Attribute wie Leistungsergebnisse, die Sie gegenüberstellen können. Dies könnte bei einer weiteren Priorisierung und Festlegung von Maßnahmen helfen.