Kapitel 19
IN DIESEM KAPITEL
Bislang ging es bei Smart Predict um metrisch skalierte Zielvariablen. Diese Modelle sind beispielsweise für eine Absatz- oder Umsatzprognose geeignet. Genauso bedeutend im Machine Learning sind jedoch auch kategoriale Vorhersagen, also Schätzungen von Ausprägungen wie beispielsweise Kündiger / Nichtkündiger, Antworter / Nichtantworter, Käufer / Nichtkäufer oder Maschinenausfall / kein Maschinenausfall. Welche Einflussgrößen lassen es nun wahrscheinlich werden, dass ein Mitarbeiter kündigt? Verallgemeinert heißt das: Gesucht ist der Zusammenhang von unabhängigen Variablen (Prediktoren) zur (kategorialen) Zielvariablen. Diese Zielvariable (zum Beispiel Kaufentscheidung oder Kündigung) wird mit unabhängigen Variablen (zum Beispiel Dauer der Kundenbeziehung, Kaufverhalten) auf der Basis von Ist-Daten verglichen und mögliche Abhängigkeiten werden herausgearbeitet. So könnte es beispielsweise eine Abhängigkeit zwischen der Dauer der Kundenbeziehung und der Kaufwahrscheinlichkeit geben. In der Regel sind die Einflüsse multivariat, mit anderen Worten: Mehrere Einflüsse sind erkennbar.
Eine typische Aufgabestellung ist die Fokussierung auf kaufwillige Kunden. Die Analyse soll Hilfestellung bei der Priorisierung von Maßnahmen geben. Werbemaßnahmen können effektiver gestaltet werden, wenn die Kaufneigung aufgrund von Kundeneigenschaften besser eingeschätzt werden kann. Welche Konsequenzen ergeben sich hieraus? Zum einen sind häufig die finanziellen Konsequenzen zu berücksichtigen. Man will beispielsweise nicht unbedingt jeden Kunden halten. Ein Kundenwert kann die Entscheidung, Erhaltungsmaßnahmen einzuleiten, unterstützen. Gruppen mit der höchsten Kaufwahrscheinlichkeit könnten primär kontaktiert werden.
Eine typische resultierende Regel könnte sein: »Wenn eine Kundenbeziehung länger als zwei Jahre dauert und dieser Kunde einen Kaufanteil an elektronischen Artikeln von mehr als 50 % hat, beträgt die Kaufwahrscheinlichkeit 40 %.«
Smart Predict nutzt Gradient Boosting, eine Erweiterung des Entscheidungsbaumverfahrens. Es werden mehrere einfache Entscheidungsbäume generiert. Boosting ist eine Ensemble-Learning-Methode, bei der das Modell sequenziell trainiert wird und jedes neue Modell versucht, das vorherige zu korrigieren. Es kombiniert mehrere schwache Lerner zu einem starken Lerner.
Hier soll ein einfaches Beispiel gewählt werden, nämlich eine Abwanderungsanalyse von Mitarbeitern (Attrition). Mitarbeiter kündigen, das ist ganz normal. Allerdings ist es auch ganz normal, dass man bestimmte Mitarbeiter lieber halten würde als andere Mitarbeiter. Wenn man also im Vorfeld besser abschätzen könnte, welche Mitarbeiter abwanderungsgefährdet sind, könnte man versuchen, die wichtigen Mitarbeiter zum Bleiben zu motivieren. Ein Sonderbonus kann hier helfen. Wir brauchen also Hinweise über die binäre Variable »Kündiger / Nichtkündiger«.
Der Lösungsansatz ist eine typische Klassifikation. Schauen Sie sich alle Mitarbeiterstammsätze an (auch von denjenigen, die gekündigt haben). Was waren signifikante Merkmale, warum Mitarbeiter gekündigt haben?
Lassen Sie uns eine solche Analyse aufbauen.
Legen Sie ein neues Prognoseszenario an.
Zunächst einmal brauchen wir wieder Daten.
Laden Sie die Daten SacFuerDummiesMitarbeiterabwanderungTraining.csv
und SacFuerDummiesMitarbeiterabwanderungPrognose.csv
hoch (Abbildung 19.1).
Training enthält wieder die Kündigungsinformation, während Prognose nur nicht gekündigte Mitarbeiter enthält.
Abbildung 19.1: Hochladen der Trainings- und Anwendungsdateien
Auch Zeitaspekte werden vernachlässigt. Irgendwann kündigen die meisten Mitarbeiter (wenn sie nicht durch Ruhestand, Arbeitgeberkündigung und so weiter das Unternehmen verlassen).
Der Algorithmus kann natürlich schon auf der Basis der Trainingsdatei entscheiden, wie hoch die Abwanderungswahrscheinlichkeit ist. Das ist aber nicht so zweckmäßig, da Ihre potenzielle Zielgruppe nicht gekündigt hat. Auf der anderen Seite ist es aber auch problematisch, Ihre Zielgruppe vom Training auszuschließen. Die hat vielleicht eine besondere Eigenschaft, zum Beispiel könnten dies High Performer sein. Das Weglassen diese Gruppe verzerrt die Analyse.
Es ist zudem eine volatile Sicht: Die, die nicht kündigen, könnten unmittelbar vor der Kündigung stehen. Insofern ist es sinnvoll, die Analyse häufiger zu aktualisieren.
Wir sehen eine Vielzahl von Kennzahlen und Dimensionen (Abbildung 19.2) wie Tätigkeitsbereich, Geschlecht, Alter, Betriebszugehörigkeit und so weiter. Im Gegensatz zur Regression finden wir die Zielvariable HasLeft
nicht bei den Kennzahlen, sondern bei den Dimensionen.
Es ist wieder keine Aufbereitung der Daten notwendig. Das ist zwar selten in realen Situationen der Fall, aber im Fokus steht ja die Analyse. Planen Sie den Aufwand bei der Aufbereitung ein. Schließlich gehen in einem typischen Predictive-Analytics-Projekt gerne bis zu 90 % der Zeit mit der Datenaufbereitung drauf. Fehlende Daten, Ausreißer und so weiter müssen identifiziert und gegebenenfalls bereinigt werden. Das kann richtig viel Zeit kosten.
Abbildung 19.2: Datenset zur Prediction
Abbildung 19.3: Anlage einer Klassifikation
Abwanderung
.HasLeft
(Abbildung 19.4).
Nun kann man auch noch Einflussgrößen ausschließen, die also nicht in die Analyse einfließen sollen. Damit wird das Modell schlanker und somit die Rechenzeit reduziert. Aspekte wie Mitarbeitername sollten keinen Einfluss auf die Kündigungsneigung haben.
Abbildung 19.4: Konfiguration der Klassifikation
Schließen Sie also Manager Description
, LocationID
(Location
bleibt aber), Employee
und Employee_Desc
von der Analyse aus (Abbildung 19.5).
Vorsicht geboten ist auch hier wieder mit dem Schlüssel. Hierin stecken manchmal verdeckte Merkmale wie Mitarbeiterzugehörigkeit, Organisation und so weiter. Hieraus könnte man schon Einflussgrößen ableiten. In unserem Fall nehmen wir den Schlüssel aber aus der Analyse heraus.
SAC überrascht uns nach der Wartezeit mit vielen wichtigen Informationen (Abbildung 19.6):
Abbildung 19.5: Ausschließen von Einflussfaktoren
Abbildung 19.6: Analyseübersicht
Etwas schwieriger zu verstehen ist die Darstellung der Zielentwicklung (Abbildung 19.7). Diese bezieht sich auf das Validierungsset. Die rot markierte Linie (die Diagonale) repräsentiert einen zufälligen Zugriff. Wenn Sie beispielsweise 50 % rein zufällig ausgewählt haben, dann haben Sie auch im Mittel 50 % der Kündiger, also 50 % von 11,03 % im Validierungsset erwischt.
Abbildung 19.7: Performance des Modells
Das perfekte Prognosemodell, das heißt, Sie gehen von einer 100%-Vorhersagegenauigkeit aus, gibt Ihnen nach 11,03 % der Daten 100 % der Kündiger. Mit anderen Worten, Sie kennen Ihre Kündiger.
Und schließlich betrachten wir die Kurve unseres Modells. Zunächst werden alle Mitarbeiter nach der Höhe der Kündigungswahrscheinlichkeit sortiert. Am Anfang wählen wir die Mitarbeiter, von denen wir mit einer hohen Wahrscheinlichkeit davon ausgehen können, dass sie kündigen werden. Wenn wir also 10 % unserer Mitarbeiter (nach Kündigungswahrscheinlichkeiten sortiert) herausziehen, erwischen wir deutlich über 50 % der Kündiger. Also schon mal nicht schlecht. Allerdings lässt die Trefferquote nach. Wenn wir ca. 40 % der Grundgesamtheit gezogen haben, haben wir alle unsere Kündiger im Validierungsset erwischt. Die Fläche zwischen der blauen und der roten Kurve stellt die Verbesserung im Vergleich zur zufälligen Auswahl dar.
Und nun zu den Einflussfaktoren. Wie Sie erkennen können, ist die Erfahrung ein wichtiger Einflussfaktor. Also gilt, wir sollten uns besonders auf das Attribut Erfahrung konzentrieren. Aber auch das Gehalt erscheint wichtig.
Des Weiteren sehen Sie auch die Einflussstärke pro Kategorie (Abbildung 19.8). Man kann sagen, die Erfahrung wirkt sich positiv (also verstärkend) auf das Kündigungsverhalten aus (für das Unternehmen natürlich negativ).
Abbildung 19.8: Einflussstärke der Variablen
Die Verwechslungsmatrix (gebräuchlicher Confusion Matrix) gibt Ihnen einen Eindruck über die Güte des Modells (Abbildung 19.9). Von den 11,03 % Kündigern haben Sie etwas mehr als die Hälfte (6,21 % der Mitarbeiter) erkannt. Eigentlich gar nicht so gut, da Ihnen damit gut 40 % durch die Lappen gegangen sind. Diejenigen, die bleiben, haben Sie hingegen erstaunlich gut erkannt. Aber das ist gar nicht das Ziel. Also ist die Genauigkeit insgesamt schon gut, aber hinsichtlich Ihres Ziels eigentlich ziemlich begrenzt.
Daher ist insbesondere die Sensitivität interessant. Diese ergibt sich aus den erkannten Kündigern, dividiert durch alle Kündiger, also auch die nicht erkannten Kündiger.
Auf dem nächsten Reiter können Sie grob simulieren, was Ihnen das Ergebnis bringt. Ein kleines, aber feines Simulationsmodell lässt Sie den Wert des Modells erkennen. Sie können testen, was Ihnen die Fokussierung auf Personen mit hoher Abwanderungswahrscheinlichkeit bringt. Hierbei wird die Annahme getroffen, dass Ihr Bonus auch dazu führt, dass die Mitarbeiter bleiben. Das Modell arbeitet auf dem Validierungspart, sodass uns 500 Datensätze zur Analyse zur Verfügung stehen.
Hierzu geben Sie die Kosten für das positive Element an. Dies könnte beispielsweise ein besonderer Bonus sein (hier 10.000 Euro). Dann können Sie noch eingeben, was Ihnen die vermiedene Kündigung einspart, also Hiring-Kosten und Einarbeitung (hier 30.000 Euro). Am Anfang steht also der Deckungsbeitrag von 20.000,- pro gehaltenen Mitarbeiter, multipliziert mit einer hohen Wahrscheinlichkeit, dass dieser wirklich kündigen sollte.
Abbildung 19.9: Weitere Informationen
Wenn Sie nun 5 Personen mit der höchsten Kündigungswahrscheinlichkeit einen Bonus von 10.000,- geben und davon sind 4 potenzielle Kündiger, die dann nicht kündigen, haben Sie einen Deckungsbeitrag von 5*-10.000,- + 4*30.000,- = 70.000,-.
Streuen Sie Ihre Bonuszahlung hingegen rein zufällig, erhalten. Sie 5*-10.000 + 1*30.000,- = -20.000,-. Das ist aber grob gerundet, da 11 % von 5 nur 0,55 sind. Aber eine halbe Kündigung gibt es ja nicht.
Sie können nun mit dem Schieberegler die Anzahl der sonderbonusberechtigten Personen so lange erhöhen, bis der Deckungsbeitrag der Bonusaktion nicht mehr steigt. Bei 16 Personen beträgt der Deckungsbeitrag 240.000,-.
Klicken Sie auf GEWINN MAXIMIEREN (Abbildung 19.10).
Das Optimum liegt bei 12 Kontakten (Abbildung 19.11), was Sie 120.000,- Bonus kostet, aber 9 Kündigungen (270.000) vermeidet und somit einen Deckungsbeitrag von 150.000 erbringt. Zahlen Sie den Bonus an zufällig ausgewählte Mitarbeiter, kommen Sie auf die gleichen Kosten, aber erreichen nur 11 % * 12 = 1,32, sodass ein Mitarbeiter gehalten werden kann. Dies erbringt einen Verlust von 90.000. Der theoretische Mehrwert des Modells beträgt also 240.000 (150.000 - (-) 90.000).
Abbildung 19.10: Ein kleines Simulationsmodell
Abbildung 19.11: Gewinnsimulation
Und schließlich haben wir noch weitere Performance-Kurven (Abbildung 19.12).
Abbildung 19.12: Performance-Kurven
Wenden Sie nun das Modell an. Klicken Sie auf das Fabrik-Symbol in der Task-Leiste.
Sie nutzen das Werkzeug also produktiv, daher die Fabrik als Symbol (Abbildung 19.13).
Abbildung 19.13: Erzeugung einer Ergebnistabelle
Wählen Sie die Datenquelle SacFuerDummiesMitarbeiterabwanderungPrognose.csv
.
Diese enthält Mitarbeiter mit den Einflussgrößen, aber nicht das Zielattribut hasLeft
. Alle untersuchten Mitarbeiter sind also noch an Bord.
Leider müssen Sie das händisch machen. Zumindest sollten Sie den Mitarbeiterschlüssel, Bezeichnung und die Einflussgrößen auswählen, wenn Ihnen das viele Klicken zu aufwendig ist.
Abbildung 19.14: Auswahl der Felder
SacFuerDummiesMitarbeiterabwanderungErgebnis
ab (Abbildung 19.15).Schauen Sie sich nun das Ergebnis an. Öffnen Sie über die Dateiensicht die erstellte Datei (Abbildung 19.16).
Pro Mitarbeiter werden mehrere Datensätze angelegt. Pro relevanter Einflussgröße (es werden 10 ausgewählt) wird ein eigener Datensatz für jeden Mitarbeiter angelegt.
Explanation Strength
absteigend nach absoluter Größe.Predicted Category
und die zugehörige Stärke.Abbildung 19.15: Anwendung des Prognosemodells
Abbildung 19.16: Auswertungs-Datenset
Schließlich kann man sich die Daten auch per Story auswerten lassen.
optimierten Entwurfserlebnis
.SacFuerDummiesMitarbeiterabwanderungErgebnis
zu.Ihre Mitarbeiter sind erstaunlich alt, oder (Abbildung 19.17)? Das liegt an der Struktur des Datensatzes. Auch hier sind wie bei der Regression wieder zwei Tabellen in eine Tabelle untergebracht: einmal die Daten zur Zielvariablen und dann die Daten zu den Einflussgrößen.
Abbildung 19.17: Eine erste Tabellensicht
Predictive Category
nach y
.Abbildung 19.18: Anwendung der Sortierung
Nun schaut es besser aus (Abbildung 19.19). Auf diese Mitarbeiter sollten Sie ein Augenmerk werden.
Vielleicht haben Sie bei Ihrem individuellen Ansatz noch andere Attribute wie Leistungsergebnisse, die Sie gegenüberstellen können. Dies könnte bei einer weiteren Priorisierung und Festlegung von Maßnahmen helfen.
Abbildung 19.19: Abwanderungsgefährdete Mitarbeiter