6Feature Selection

Bianca Huber

Mit einer zunehmenden Menge an verfügbaren Daten gewinnt die Feature Selection stark an Bedeutung. Ein Feature ist eine messbare Eigenschaft der Objekte in den Daten. Die Feature Selection ermöglicht es für eine vorliegende Fragestellung, aus einer Vielzahl von Features wichtige auszuwählen und unnütze zu entfernen. Dadurch nimmt die Komplexität eines Modells ab, bei einer gleichbleibenden oder oft höheren Vorhersagequalität. Dieser Beitrag erläutert grundlegende Aspekte und verschiedene Methoden der Feature Selection. Anhand eines praktischen Beispiels werden die unterschiedlichen Ansätze gegenübergestellt und diskutiert.

6.1Weniger ist mehr

Für die rasant wachsende Menge an Daten ist zum Zeitpunkt der Speicherung oft noch nicht klar, wofür diese genutzt werden können. In diesem Szenario hilft die Feature Selection, deren Anzahl zu reduzieren und dabei wichtige Features für eine spezifische Fragestellung zu identifizieren, wobei für diese Aufgabe tiefgehendes Expertenwissen notwendig wäre. Dies ist meist kostspielig, nicht verfügbar oder gar nicht vorhanden. Die Feature Selection ermöglicht es, diese Aufgabe automatisiert und ohne Expertenwissen durchzuführen [Liu & Motoda 1998b, S. 98 ff.].

Für ein Vorhersagemodell in der Data Science sind im Allgemeinen fünf Dinge vorrangig: Genauigkeit, Sparsamkeit, Interpretierbarkeit, Generalisierbarkeit und Kosteneffizienz. Die Erfüllung dieser Kriterien fördert die Feature Selection mit dem grundlegenden Ansatz weniger ist mehr. Die Vorhersagegenauigkeit vieler Algorithmen hängt stark von der erhaltenen Eingabeinformation, auf der das Training stattfindet, ab. Dazu gehört auch, dass eine Überspezifizierung zu einem verrauschten Trainingszyklus und einer geringeren Vorhersagegenauigkeit führt. Solch einer Überladung wirkt die Feature Selection entgegen, indem sie wichtige Features auswählt und unnütze entfernt. Dadurch ist es möglich, eine genauso gute oder bessere Genauigkeit mit einer geringeren Anzahl an Features zu erzielen. Des Weiteren ist Sparsamkeit ein entscheidendes Kriterium in der Data Science. Generell werden einfache Modelle gegenüber komplexen Modellen bevorzugt. Einerseits ist es einfacher, realistische Verteilungsannahmen in Modellen mit weniger Parametern aufzustellen. Andererseits ermöglicht Sparsamkeit eine bessere Interpretierbarkeit [Kuhn & Johnson 2020, S. 1 ff.]. Nicht nur das Modell ist einfacher zu interpretieren, sondern die Feature Selection ermöglicht auch ein besseres Datenverständnis. Darüber hinaus kann diese die Gefahr des Overfittings minimieren. Sehr viele Features eines Datensatzes, vor allem in Kombination mit wenigen gemessenen Beobachtungen, können zu einem überangepassten Vorhersagemodell führen. Das bedeutet, dass ein Modell perfekt zu den vorliegenden Trainingsdaten passt, sich aber nicht mehr zur Vorhersage für neue Objekte nutzen lässt. Folglich ist dieses schlecht verallgemeinerbar und für einen praktischen Einsatz ungeeignet. Daher ist es ratsam, die Anzahl der Features zugunsten der Generalisierbarkeit eines Vorhersagemodells zu verringern. Zu guter Letzt reduziert eine geringe Anzahl die rechnerischen Kosten, denn viele Features verlangsamen die Erzeugung und das Training des Modells und erfordern eine hohe Speicherintensität. Die Anwendung der Feature Selection führt zu einer Verbesserung der Lerngeschwindigkeit und damit zu einer besseren Kosteneffizienz [Bolón-Canedo et al. 2015, S. 2 ff.].

Je nach Lernalgorithmus haben die genannten Vorteile der Feature Selection unterschiedlich starken Einfluss. Einige, wie beispielsweise die Support Vector Machine oder die künstlichen neuronalen Netze, reagieren sehr sensitiv auf nicht benötigte Features. Sie führen häufig zu einer verringerten Vorhersagegüte. Andere Lernalgorithmen sind anfällig für stark korrelierende Features. Dazu zählen unter anderem die lineare und die logistische Regression sowie der Naive-Bayes-Algorithmus [Kohavi & John 1998, S. 34]. Sogar wenn Lernalgorithmen unempfindlich gegen überflüssige Features sind, ist es ratsam, diese vorab zu eliminieren. Damit lassen sich die rechnerischen Kosten minimieren und zur Erstellung von Vorhersagen Einsparungen aufseiten der Datenbeschaffung erzielen. Im Allgemeinen lässt sich konstatieren, dass weniger einbezogene Features in einem Modell gemäß den zuvor genannten Aspekten Verbesserungen nach sich ziehen. Das Ziel ist es somit, die Feature-Anzahl so weit wie möglich zu reduzieren, ohne die Vorhersageleistung dabei zu beeinträchtigen [Kuhn & Johnson 2020, S. 228]. Aufgrund der genannten Aspekte stellt die Feature Selection einen wesentlichen Bestandteil im Ablauf der Data Science dar.

6.2Einführung in die Feature Selection

Um tiefer auf das Thema der Feature Selection einzugehen, wird zunächst ihre Bedeutung erläutert. Dafür liefert der folgende Abschnitt die Definition und erklärt wichtige Begriffe anhand von Beispielen. Im Anschluss wird deutlich gemacht, wie sich die Feature Selection dabei zu anderen Gebieten der Verarbeitung von Features abgrenzt.

6.2.1Definition

Die Feature Selection ist als Strategie zur Auswahl wichtiger Features in Bezug auf die Zielvariable zu verstehen. Ein Feature ist eine messbare Eigenschaft der Objekte, die im Datensatz enthalten sind. Typische Beispiele sind Name, Alter und Geschlecht. Tabelle 6–1 zeigt einen Ausschnitt aus dem bekannten Datensatz über die Passagiere der Titanic [Xiaming 2014]. Im allgemeinen Sinne repräsentiert jede Spalte ein Feature.

Tab. 6–1Beispieldatensatz

Grundlegend wird dabei in Eingabefeature und Ausgabefeature unterschieden. Erst ein bestimmter Anwendungsfall legt Eingabe und Ausgabe fest. Eingabefeatures sind die Variablen, die als Modellinput dienen und die durch die Feature Selection zu reduzieren sind. Dies sind die sogenannten unabhängigen Variablen. Im Beispieldatensatz sind es die sechs linken Spalten. Ein Ausgabefeature ist die Variable, die von einem Modell vorherzusagen ist. Häufig wird diese auch Zielvariable oder Responsevariable genannt. Sie soll durch die Eingabefeatures erklärt werden und stellt daher die abhängige Variable dar. Im Beispiel ist die Zielvariable in der grau hervorgehobenen Spalte erfasst. Diese gibt an, ob ein Passagier das Unglück überlebt hat oder nicht. Wird fortan von Feature im Sinne von Feature Selection gesprochen, ist damit die Eingabe gemeint. Das Ausgabefeature wird explizit Zielvariable genannt.

Feature Selection ist ein Prozess, um automatisch die nützlichsten Features für das zu lösende Problem auszuwählen. Bislang wurde von der Identifizierung von wichtigen oder nützlichen Features gesprochen, womit relevant und nicht redundant gemeint ist. Ein Feature ist relevant, wenn es eine Information über die Zielvariable enthält. Beispielsweise kann die Grundfläche relevant für die Vorhersage der Grundstückspreise sein. Dagegen wäre eine laufende und zufällig vergebene Grundbuchnummer irrelevant. Zwei Features sind redundant, wenn deren Werte vollständig korrelieren. Ein Beispiel ist ein Grundstückswert und die bezahlte Grunderwerbsteuer. Die Feature Selection wählt folglich automatisch Features aus, die das vorliegende Problem klar abgrenzen, und verzichtet dabei auf irrelevante oder redundante Informationen. Die Hauptaufgabe ist es, herauszufinden, welche Features für ein bestmögliches Vorhersageergebnis in ein Modell eingehen sollen [Paja et al. 2018, S. 98 ff.].

6.2.2Abgrenzung

Feature Selection und Feature Transformation sind als zwei grundlegend unterschiedliche Aufgaben zu betrachten. Während die Transformation neue Features erstellt, behält die Selektion die Features in ihrer ursprünglichen Form bei und wählt daraus eine Teilmenge aus. Die Transformation lässt sich wiederum in Feature Construction und Feature Extraction unterteilen [Liu & Motoda 1998a, S. 4]. Abbildung 6–1 visualisiert das grundlegende Prinzip dieser verschiedenen Möglichkeiten der Verarbeitung.

Abb. 6–1Abgrenzung der Feature Selection, Construction und Extraction

Während die Feature Construction die rohen Daten in neue Features mit der Intention, nützlichere zu erstellen, umwandelt, wird dabei meist sogar die Feature-Anzahl erhöht. Dahingegen reduziert die Feature Selection die Anzahl, indem sie die nützlichsten aus einer vorgegebenen Feature-Menge auswählt. Unter anderem lassen sich logische und arithmetische Operationen zur Konstruktion von Features einsetzen, dies beispielsweise durch die Multiplikation von Länge und Breite zur Berechnung einer Grundstücksfläche. Die beiden Aufgaben erfolgen unabhängig voneinander. Häufig geht der Feature Selection eine Feature Construction voraus.

Feature Selection und Feature Extraction gehören beide zu den Methoden der Dimensionsreduktion. Sie unterscheiden sich aber darin, wie sie eine Reduktion der Feature-Anzahl erzielen. Ein Beispiel ist an dieser Stelle die Hauptkomponentenanalyse. Sie reduziert zwar auch die Feature-Anzahl, wobei dies aber durch die Bildung neuer Kombinationen aus den originalen Features entsteht. Dies geschieht zulasten der Erklärbarkeit und ohne Berücksichtigung der Zielvariablen. Die Feature Selection verringert hingegen die Feature-Anzahl durch Ausschluss einzelner Features. Die Extraktion reduziert die Dimension also durch Kombination, während die Selektion eine Dimensionsreduktion durch Entfernung erreicht. Durch die Tatsache, dass die Feature Selection die Features in ihrer ursprünglichen Form belässt, ist sie besonders von Bedeutung für Anwendungsfälle, in denen die Modellinterpretation und die Wissensgenerierung eine große Rolle spielen.

6.3Ansätze der Feature Selection

Die Feature Selection lässt sich anhand zweier Einteilungen in grundlegend unterschiedliche Ansätze unterteilen. Die erste Einteilung bezieht sich auf die Anzahl der Features, auf der eine Entscheidung basiert. Die zweite Einteilung gibt an, wie die Feature Selection in einem Data-Science-Prozess integriert ist, da sie sich unterschiedlich mit dem Lernalgorithmus kombinieren lässt.

Anhand der ersten Einteilung werden Feature-Selection-Methoden der individuellen Evaluierung oder der Evaluierung von Teilmengen zugeordnet. Die individuelle Evaluierung bewertet die Wichtigkeit von Features einzeln und damit unabhängig davon, welche anderen im Datensatz noch enthalten sind. Dieser Ansatz wird auch als univariate Feature Selection bezeichnet. Dahingegen werden in der Evaluierung von Teilmengen ganze Gruppen von Features gemeinsam bewertet. Dieses Vorgehen nennt sich multivariate Feature Selection. Während der individuelle Ansatz nicht in der Lage ist, redundante Features zu erkennen, kann die Evaluierung ganzer Teilmengen mit Redundanz umgehen [Bolón-Canedo et al. 2015, S. 15 f.].

Nach der zweiten Einteilung gibt es drei grundlegende Herangehensweisen:

der Filter-Ansatz,
der Wrapper-Ansatz und
der Embedded-Ansatz.

Diese Methoden grenzen sich dadurch voneinander ab, dass sie den Algorithmus zur Feature Selection und den Lernalgorithmus unterschiedlich kombinieren. Während Filter-Methoden eine Auswahl in Form eines Vorverarbeitungsschrittes durchführen, ist die Feature Selection im Sinne des Wrapper- und Embedded-Ansatzes direkt mit dem Lernalgorithmus verflochten.

Abb. 6–2Das Schema der Filter-Methode

Filter-Methoden werden vor der Anwendung eines Lernalgorithmus eingesetzt. Dadurch ist dieser Ansatz unabhängig von der Modellierung selbst. Demzufolge erhalten Filter-Methoden kein Feedback vom Lernalgorithmus, sondern bestimmen vorweg die Features, die für eine Vorhersageaufgabe am interessantesten erscheinen. Die Güte eines Features wird durch die Auswertung eines statistischen Maßes ermittelt. Anhand deren Güte erfolgt eine Auswahl der Features, die den stärksten Zusammenhang mit der Zielvariablen aufweisen.

Abb. 6–3Das Schema der Wrapper-Methode

Die Wrapper-Methode ist abhängig vom Lernalgorithmus selbst. Sie evaluiert anhand der Performance die Güte verschiedener Features. Dabei wird der Lernalgorithmus als Blackbox betrachtet und als eine Unterroutine eingesetzt. Die Wrapper-Methode erstellt viele Modelle mit verschiedenen Feature-Teilmengen und wählt dasjenige aus, das zum Modell mit der genauesten Vorhersage führt. Die Suchrichtung, die neue Teilmengen bestimmt, wird durch eines der vielen zur Verfügung stehenden Suchverfahren vorgegeben. Mit der getroffenen Auswahl wird im letzten Schritt ein beliebiger Lernalgorithmus trainiert und anhand eines unabhängigen Testdatensatzes final ausgewertet.

Abb. 6–4Das Schema der Embedded-Methode

Die Embedded-Methoden sind ebenfalls vom Lernalgorithmus abhängig. Hier wird noch einen Schritt weitergegangen, denn die Feature Selection ist direkt darin integriert. Dies erfolgt implizit oder explizit. Embedded-Methoden erlernen während der Modellerzeugung selbst, welches gute Features sind. Dabei wird aus eigenem Antrieb betrachtet, welche Features am stärksten zur Modellgenauigkeit beitragen [Paja et al. 2018, S. 98 f.].

6.3.1Der Filter-Ansatz

Eine Filter-Methode fungiert als Vorverarbeitungsschritt innerhalb des Data-Science-Prozesses. Dieser Ansatz ist in der Statistik weit verbreitet. Filter-Methoden gewinnen ihre Information über die Wichtigkeit einzelner Features, basierend auf einer statistischen Auswertung allein aus den Daten. Generell sind zwei Schritte notwendig: Zuerst wird anhand eines statistischen Maßes der Zusammenhang zwischen einzelnen Features und der Zielvariablen bewertet. Dieses Maß ist sorgfältig zu wählen, wobei der vorliegende Datentyp der Features und der Zielvariablen entscheidend ist. Hierbei ist zu beachten, ob es sich um einen numerischen oder kategorialen Typ handelt. Numerisch bedeutet eine Messung eines Sachverhaltes anhand kontinuierlicher Zahlen, wie z. B. die Temperatur. Wohingegen eine Zuordnung einzelner Objekte zu bestimmten Klassen, wie beispielsweise männlich oder weiblich, kategorial genannt wird. Aus der Anwendung eines statistischen Maßes resultieren wiederum Werte, die sogenannten Koeffizienten, die wiederum ein Ranking ermöglichen. Ein Ranking ist eine Sortierung der Koeffizienten entsprechend ihrer absoluten Größe. Je größer ein Wert, desto wichtiger ist das dazugehörige Feature. In einem zweiten Schritt muss eine Entscheidung erfolgen, welche Features aufgrund dieser Rangfolge zu nutzen sind.

Der Korrelationskoeffizient dient häufig als statistisches Maß, um die wichtigsten Features auszuwählen und unwichtige zu entfernen. Die Korrelation lässt sich auf verschiedene Weisen berechnen. Häufig werden Methoden nach Pearson dafür eingesetzt. Die Pearson-Korrelation eignet sich zur Ermittlung des Zusammenhangs zwischen einem numerischen Feature und einer numerischen Zielvariablen. Sie geht von einem direkten linearen Zusammenhang zwischen Eingabe und Ausgabe aus. Dafür wird die Korrelation zwischen dem Eingabefeature X und der Zielvariablen Y berechnet, wie aus der folgenden Formel zu entnehmen ist:

wobei x_i, y_i die Werte n unabhängiger Beobachtungen und , die Mittelwerte der beiden Features darstellen. Diese Methode lässt sich auch dazu einsetzen, redundante Features zu finden. Dafür wird für zwei Features X₁ und X₂ die Korrelation Korr(X₁, X₂) berechnet. Ist diese sehr hoch, lässt sich daraus schließen, dass sie redundant sind, d.h. dieselbe Information liefern. Für nicht lineare Korrelation sind Methoden, die auf Rängen basieren, einsetzbar. Für kategoriale Features und eine kategoriale Zielvariable ist der Pearson Chi-Quadrat-Test ein weitverbreitetes statistisches Maß. Die beobachtete Häufigkeiten h werden mit den erwarteten Häufigkeiten h' verglichen:

Dabei stellen i und j die Laufindizes über Spalten und Zeilen einer Kreuztabelle dar, die auf den verschiedenen Kombinationen aller Ausprägungen der beiden kategorialen Features basiert. Ist der errechnete Wert höher als ein kritischer Wert aus einer Teststatistik, der zuvor fest vorgegeben wurde, sind die erwartete und die beobachtete Häufigkeit verschieden. Somit handelt es sich um ein relevantes Feature. Hierzu gibt es detaillierte Rechenbeispiele und eine Übersicht über weitere Varianten des Chi-Quadrat-Tests [UZH 2018]. Um diesen Abschnitt abzurunden, sind der ANOVA-Korrelationskoeffizient als lineare und Kendalls-Ränge als nicht lineare Methoden für gemischte Variablentypen, bezogen auf Eingabe und Ausgabe, zu nennen.

Zur Auswahl der wichtigsten Features kommen diejenigen auf den ersten n Rängen oder alle, die einen gewissen Schwellenwert überschreiten, in Betracht. Diese Vorgehensweisen zählen zu den absoluten Auswahlmethoden. Als relative Strategie ist ein bestimmtes oberes Perzentil nutzbar. Darüber hinaus lassen sich weitere statistische Tests einsetzen, die eine bestimmte Hypothese prüfen. Dazu gehört der Hypothesentest der Signifikanz des Korrelationskoeffizienten [Illowsky & Dean 2013, S. 699 ff.]. Hierbei wird getestet, ob sich ein Korrelationskoeffizient signifikant von null unterscheidet. Nur dann ist ein wahrnehmbarer Zusammenhang zwischen Feature und Zielvariable gegeben. Bei diesem Vorgehen werden alle Features ausgewählt, die diesen Test bestehen.

Oft finden diese univariaten Methoden als Filter-Methoden Anwendung. Sie sind zwar weit verbreitet, aber betrachten die Features individuell. Weniger bekannt, aber nicht weniger wichtig, sind multivariate Filter-Methoden. Sie bieten den Vorteil, dass auch Wechselwirkungen Beachtung finden. Zu diesen Methoden gehören Methoden wie INTERACT und Relief. Bolón-Canedo et al. stellen eine umfangreiche Übersicht über verschiedene multivariate Filter-Methoden bereit [Bolón-Canedo et al. 2015, S. 18 ff.].

6.3.2Der Wrapper-Ansatz

Im Gegensatz zu den Filter-Methoden, für die ein statistisches Maß die Evaluierungsfunktion darstellt, werden in Wrapper-Methoden ein Lernalgorithmus und dessen Vorhersagegüte verwendet, um eine ausgewählte Feature-Teilmenge zu bewerten. Gleichbleibend ist, dass auch für die Wrapper-Methoden zwei Schritte notwendig sind. Wieder wird eine Evaluierungsfunktion eingesetzt, hier die ermittelte Vorhersagegüte. Ergänzend hilft eine zweite Komponente, eine Entscheidung zu treffen, in diesem Falle für die Erstellung und Auswahl weiterer Feature-Teilmengen. Die Feature Selection im Sinne des Wrapper-Ansatzes ist als Suchproblem zu verstehen, für das ein Lernalgorithmus die Suche leitet. Zuerst werden verschiedene Feature-Teilmengen erzeugt und anhand der Vorhersagegüte bewertet sowie basierend darauf verglichen. Im Anschluss erfolgt ein externes, iteratives Suchverfahren, das angibt, in welche Richtung die Suche fortzusetzen ist. Dafür stehen verschiedene Suchalgorithmen zur Verfügung. Zusammenfassend verbleibt, dass die Wrapper-Methode eine Suche im Raum der möglichen Parameter durchführt, die hier die Features repräsentieren.

Eine weitverbreitete Wrapper-Methode ist die rekursive Feature-Eliminierung. Das Grundprinzip besteht darin, mit jeder Iteration kleiner werdende Feature-Teilmengen zu wählen. Initial wird ein Lernalgorithmus auf der vollständigen Feature-Menge trainiert. Dabei gilt es, eine Methode einzusetzen, die für jedes Feature einen Koeffizienten und den daraus resultierenden Rang entsprechend seiner Wichtigkeit zurückliefert. Zu dieser Gruppe von Lernalgorithmen gehören unter anderem die logistische Regression, die lineare Support Vector Machine und der Random Forest. Die Sortierung anhand der Wichtigkeit wird Feature-Ranking genannt und bestimmt die Suchrichtung. In jeder neuen Iteration wird das unwichtigste Feature aus der vorherigen Feature-Menge entfernt. Mit der neuen Teilmenge wird ein Vorhersagemodell trainiert und bewertet. Dies wird so oft wiederholt, bis die gewünschte Feature-Anzahl oder eine bestimmte Vorhersagegüte erzielt ist. Abbildung 6–5 skizziert diese Prozedur anhand eines Beispiels [Kuhn & Johnson 2020, S. 365 ff.], in dem es fünf verschiedene Features (A bis E) gibt. Dabei wird A als wichtigstes und E als unwichtigstes eingestuft. Alle dazwischenliegenden reihen sich ein. Bei Anwendung der rekursiven Feature-Eliminierung enthält das Modell in der ersten Iteration alle fünf Features, in der zweiten nur noch vier Features, da das am wenigsten wichtige entfernt wird (in diesem Beispiel E), und so weiter. In der letzten Iteration verbleibt nur noch das wichtigste Feature (in diesem Beispiel A). Anschließend wird die Teilmenge mit der höchsten Vorhersagegenauigkeit ausgewählt und für die finale Modellerzeugung und Evaluierung genutzt.

Abb. 6–5Rekursive Feature-Eliminierung [Kuhn & Johnson 2020, S. 237]

Die rekursive Feature-Eliminierung ist ein gieriges Suchverfahren, da es Suchstränge nicht mehr rückwirkend bewertet, sondern immer nur nach neuen Suchsträngen giert. Wie das Beispiel verdeutlicht, ist dadurch eine Betrachtung von Feature-Teilmengen mit gemischter Wichtigkeit ausgeschlossen.

Dagegen nehmen genetische Algorithmen und das Random Hill Climbing keine gierige Suche vor. Diese Methoden durchsuchen den Raum aller möglichen Feature-Kombinationen. Im Hill-Climbing-Ansatz wird, wie beim Bergsteigen, der Raum mit dem Ziel durchwandert, den höchsten Berg, der hier für die beste Feature-Teilmenge steht, zu erklimmen. Dagegen greifen genetische Algorithmen auf Lösungen aus der Natur bekannter Strategien der Evolution zurück. Es werden verschiedene Feature-Teilmengen, sogenannte Permutationen, gebildet und nur die stärksten überleben (survival of the fittest). Davon pflanzen sich jeweils zwei fort, indem sie ihre Features zu neuen Teilmengen mischen, was sich Crossover nennt. Dies wird so oft wiederholt, bis ein entsprechendes Optimum erreicht ist [Russell & Norvig 2010, S. 120 ff.]. Dabei beinhalten beide Methoden eine gewisse Zufälligkeit. Diese zufällige Komponente hilft, neue Feature-Teilmengen zu finden, die zu besseren Ergebnissen führen. Die Zufälligkeit wirkt sich im Hill-Climbing-Ansatz so aus, dass der Bergsteiger nicht immer den aussichtsreichsten Weg geht, um die Entdeckung neuer Pfade und Gebiete nicht per se auszuschließen. Beim genetischen Ansatz kann das Erbgut im Schritt des Crossover durch den Zufall leicht verändert sein. Beispielsweise wird ein in der Teilmenge enthaltenes Feature durch ein neues ersetzt. Die beiden Verfahren haben außerdem gemein, dass sie eine Fitnessfunktion benötigen, anhand derer sie eine Feature-Teilmenge bewerten können. Dafür nutzen sie die Vorhersagegüte, wofür jeder beliebige Lernalgorithmus einsetzbar ist. Das Ergebnis der Fitnessfunktion gibt den Weg des Bergsteigers an und bestimmt, welche Feature-Kombinationen sich fortpflanzen dürfen. Im Gegensatz zu der rekursiven Feature-Eliminierung wird kein Schritt zur Erstellung eines Rankings benötigt. Für alle vorgestellten Methoden des Wrapper-Ansatzes ist zu beachten, dass die Ermittlung einer Vorhersagegüte immer bedeutet, eine bestimmte Berechnungsvorschrift zu verwenden. Diese ist wiederum mit Vorsicht zu wählen und eine jede birgt entsprechende Vor- und Nachteile. Darüber hinaus besteht eine Vielzahl unterschiedlicher Suchverfahren, wofür weitere Beispiele und tiefergehende Informationen zu finden sind [Kuhn & Johnson 2020, S. 241 ff.; Russell & Norvig 2010, S. 64 ff.].

6.3.3Der Embedded-Ansatz

Beide zuvor vorgestellten Methoden benötigen in irgendeiner Form eine externe Komponente, die wichtige Features identifiziert. Dies ist für Embedded-Methoden nicht notwendig, da eine Feature Selection aus eigenem Antrieb erfolgt. Sie erlernen geeignete Features während der Modellerzeugung selbst. Dabei wird betrachtet, welche am besten zur Modellgenauigkeit beitragen. Die Feature Selection erfolgt dabei immer innerhalb des Trainings eines Lernalgorithmus.

Zu den Embedded-Methoden gehören Methoden, die dem Prinzip der Regularisierung folgen. Anhand einer Regulierung werden die Koeffizienten irrelevanter Features zu einem Wert von null geschrumpft. In diesem Zusammenhang ist der Koeffizient ein Vorfaktor in einem Modell, mit dem der Wert eines Features gewichtet wird. Ein einfaches, lineares Modell mit den Koeffizienten a, b und c lautet:

a * X₁ + b * X₂ + c. (3)

Ist einer der Werte a oder b gleich null, wird das entsprechende Feature X₁ oder X₂ implizit aus dem Modell entfernt. Zur Ermittlung der Koeffizienten und Auslöschung werden zusätzliche Nebenbedingungen als sogenannte Bestrafungsmethoden eingefügt, die das Modell hin zu einer geringeren Komplexität verzerren. Zu diesen Methoden der Regularisierung gehören zum Beispiel Lasso und die Ridge Regression sowie das Elastic Net [Zou & Hastie 2005].

Des Weiteren zählen Methoden mit einer Baumstruktur, wie der Entscheidungsbaum, zu den Embedded-Methoden. Ein Baum hat einen Wurzelknoten und verzweigt sich bis hin zu seinen Blattknoten. Die Pfade jeder Verzweigung, ein sogenannter Split, stehen für je eine Ausprägung des anliegenden Features. Den Blattknoten ist eine Klasse der Zielvariablen zugeordnet. Anhand dieser Baumstruktur werden neue Objekte eingeordnet und basierend auf der Klasse im entsprechenden Blattknoten Vorhersagen getroffen. Diese Methoden nehmen von Natur aus eine Feature Selection vor, indem sie an jedem Split das nützlichste Feature auswählen [Zheng & Casari 2018, S. 38 f.] Dafür werden oft die statistischen Maße genutzt, die auch in Filter-Methoden Anwendung finden, wie z. B. der Informationsgewinn. Wenn also ein Feature niemals in einem Entscheidungsbaum verwendet wird, ist es unbedeutend für die Vorhersageaufgabe.

6.3.4Vergleich der drei Ansätze

Die Filter-Methode ist unabhängig vom Lernalgorithmus, die Wrapper-Methode ist abhängig vom Lernalgorithmus und die Embedded-Methode ist direkt im Lernalgorithmus integriert. In diesem Abschnitt werden die Vor- und Nachteile dieser drei Methoden vorgestellt.

Filter-Methoden sind schnell und effektiv. Die rechnerischen Kosten und der damit verbundene Aufwand sind gering. Diese Eigenschaften erlauben es, große Datensätze einfach und schnell zu verarbeiten. Ein weiterer Vorteil ist die direkte Nachvollziehbarkeit der Einflüsse einzelner Features. Die Filter-Methoden fungieren nicht als Blackbox und besitzen somit hohen Erklärungsgehalt für eine bessere Interpretierbarkeit. Der Verzicht auf einen Lernalgorithmus zur Feature Selection führt zu einer guten Generalisierbarkeit. In diesem Verzicht liegen gleichzeitig aber auch die größten Nachteile der Filter-Methoden. Durch das Ausbleiben von Feedback des Lernalgorithmus lassen sich als unwichtig erscheinende, aber relevante Features, nicht ohne Weiteres erkennen. In manchen Fällen kann es zu einer Diskrepanz im Ergebnis der Filter-Methode und der tatsächlichen Vorhersageleistung kommen. Damit erfüllen die gewählten Features zwar die Anforderungen der Filter-Methode, aber tragen nicht unbedingt positiv zur Vorhersageleistung bei [Kuhn & Johnson 2020, S. 230]. Außerdem verwenden Filter-Ansätze häufig univariate Methoden. Damit werden Features als unabhängig voneinander angesehen, ohne eine Berücksichtigung von Wechselwirkungen einzubeziehen.

Die Wrapper-Methoden hingegen erlauben eine Aufdeckung von Wechselwirkungen zwischen einzelnen Features. Damit ist eine Erkennung von Features, die allein nutzlos, aber in Kombination nützlich sind, möglich. Unter den drei vorgestellten Methoden der Feature Selection hat die Wrapper-Methode das höchste Potenzial, die global optimale Teilmenge zu bestimmen. Oft werden damit die besten Ergebnisse, bezogen auf die Vorhersagegenauigkeit, erzielt. Dieser Vorteil erfolgt zulasten der Kosteneffizienz [Paja et al. 2018, S. 99]. Der Lernalgorithmus wird als Unterroutine eingesetzt und bringt damit einen hohen Rechenaufwand mit sich. Insbesondere künstliche neuronale Netze können rechnerisch sehr belastend werden. Außerdem ist der Lernalgorithmus der Wrapper-Methode oft eine Blackbox und somit schwer zu interpretieren. Da ein überwachter Lernalgorithmus zur Evaluierung als separate Komponente vorgelagert ist, besteht eine höhere Anfälligkeit für Overfitting und folglich eine größere Gefahr für eine fehlende Generalisierbarkeit.

Die Embedded-Methoden stellen eine sehr gute Balance zwischen Kosteneffizienz, bezogen auf den Rechenaufwand, und der Qualität der Ergebnisse im Sinne der Vorhersagegenauigkeit dar [Zheng & Casari 2018, S. 39]. Dieser Ansatz ist in der Lage, Wechselwirkungen zu geringeren rechnerischen Kosten, als es für die Wrapper-Methoden der Fall ist, zu berücksichtigen. Erstmals wird keine externe Methode zur Feature Selection benötigt. Jedoch stehen weniger Lernalgorithmen zur Verfügung, die dem Embedded-Ansatz genügen, indem sie eine Art der Selbstregulierung in sich integrieren. Die infrage kommenden Lernalgorithmen sind limitiert und es besteht nur eingeschränkter Einfluss auf das interne Regulierungs- oder Suchverfahren. Diese können wiederum Nachteile mit sich bringen. Beispielsweise ist das Suchverfahren in einem einfachen Entscheidungsbaum gierig, da es nur Verzweigungen nach vorne und keine Rückkopplung innerhalb des Baumes gibt.

Methode	Vorteile	Nachteile
Filter	geringer Rechenaufwand hohe Interpretierbarkeit gute Generalisierbarkeit	kein Feedback von Lernalgorithmus Wechselwirkungen bleiben oft unentdeckt
Wrapper	Wechselwirkungen werden berücksichtigt erzielt oft die höchste Genauigkeit	hoher Rechenaufwand geringe Interpretierbarkeit erhöhte Gefahr des Overfittings
Embedded	gute Balance: erkennt Wechselwirkungen mit geringem Rechenaufwand	an Lernalgorithmus gebunden

Tab. 6–2Gegenüberstellung der drei verschiedenen Ansätze

Tabelle 6–2 fasst die genannten Eigenschaften zusammen und bietet eine Übersicht über die wichtigsten Vor- und Nachteile der drei Methoden. Je nach Ressourcen, Anforderungen an Erklärbarkeit, Vorgaben in Modellwahl etc. ist eine für die jeweilige Situation passende Methode auszuwählen. Es ist bei der Wahl von Feature-Selection-Methoden unbedingt empfehlenswert, die in Betracht kommenden Lernalgorithmen der finalen Evaluierung zu berücksichtigen [Kohavi & John 1998, S. 38].

6.4Feature Selection in der Praxis

Nachdem einige Methoden der Feature Selection und deren theoretischer Hintergrund beleuchtet wurden, geht dieser Abschnitt verstärkt auf Aspekte in der praktischen Anwendung ein. Der erste Teil bietet eine Übersicht und Hilfestellungen dazu, was bei der Umsetzung nicht zu vergessen ist. Im zweiten Teil folgt ein kurzes Anwendungsbeispiel, das für jeden Feature-Selection-Ansatz eine Methode auswählt und auf den Titanic-Beispieldatensatz anwendet sowie die Ergebnisse miteinander vergleicht.

6.4.1Empfehlungen

Die üblichen Datenvorverarbeitungsschritte sind nach wie vor notwendig und sinnvoll. Dazu gehören unter anderem die Bereinigung und Skalierung von Features. Einige Beispiele sind im zweiten Kapitel von [Zheng & Casari 2018, S. 5 ff.] zu finden. Dies ist ein eigener Teilschritt und separat vorzunehmen. Er ist meist als vorhergehender Schritt für die Feature Selection empfehlenswert. Auch die Aufteilung der Daten und die Integration der Feature Selection sind mit Bedacht anzugehen, um die Gefahr eines Overfittings zu minimieren. Es ist darauf zu achten, dass nicht die gleichen Daten zur Bestimmung der Feature-Teilmenge und zur Bewertung einer Teilmenge zugrunde liegen. Ein Beispiel für eine korrekte gegenüber einer fehlerhaften Umsetzung ist in einem gesonderten Abschnitt in [Kuhn & Johnson 2020, S. 236 f.] zu finden.

Wie immer in der Mustererkennung gibt es auch für die Feature Selection nicht die eine und beste Methode. Es ist zu untersuchen, welche Methode am besten zum vorliegenden Problem passt. Es empfiehlt sich daher auch hier, mehrere Methoden zu testen und gegenüberzustellen. Für die meisten Programmiersprachen gibt es zahlreiche Bibliotheken, die Methoden zur Feature Selection bereitstellen und diesen Vergleich erleichtern. Um ein Beispiel zu nennen: Die Klasse feature_selection der Python-Bibliothek scikit-learn [Pedregosa et al. 2011] enthält statistische Maße wie die Funktionen f_regression() zur Berechnung des Pearson-Korrelationskoeffizienten oder chi2() für den Chi-Quadrat-Test. Unter den Selektionsmethoden stehen die Methoden SelectKBest() und SelectPercentile() zur Verfügung. Die Anstrengungen sind auf das Ausfindigmachen einer geeigneten Methode für eine bestimmte Problemstellung zu konzentrieren. Dabei gilt es, die zur Verfügung stehenden Ressourcen und die Vorgaben in einem Data-Science-Projekt, wie beispielsweise die Anforderungen an Erklärbarkeit und eine gewünschte Vorhersagegüte, zu berücksichtigen. Im Allgemeinen ist eine zu inklusive einer zu exklusiven Feature Selection vorzuziehen. Damit wird verhindert, Features von vornherein zu eliminieren, die für das Modell nützlich sein könnten. Die von Guyon und Elisseeff bereitgestellte Checkliste bietet Orientierung in der praktischen Anwendung [Guyon & Elisseeff 2003, S. 1159].

6.4.2Anwendungsbeispiel

Das Ziel dieser Beispielaufgabe ist die korrekte Vorhersage, ob eine Person auf der Titanic überlebt hat oder nicht. Diese Problemstellung soll anhand demografischer Informationen und den Buchungsoptionen, die als Eingabefeatures vorliegen, beantwortet werden. Die Aufgabe der Feature Selection ist die Identifikation relevanter Features. Zu Beginn erfolgen ein paar einfache, aber notwendige Vorverarbeitungsschritte. Die Namenspalte, die in Textform vorliegt, wird für diese Aufgabe gelöscht. Das Alter einiger Passagiere ist nicht erfasst. Diese Zeilen werden aus dem Datensatz entfernt. Das Zielattribut ist binär, da es nur Nein und Ja als mögliche Werte annehmen kann. Diese beiden Wörter werden in die Zahlen 0 und 1 umgewandelt. Ebenso wird mit dem Feature Geschlecht verfahren (hier lediglich binär mit männlich = 0, weiblich = 1). Tabelle 6–3 zeigt ausschnittsweise den resultierenden Datensatz mit insgesamt 714 Einträgen. Dieses Beispiel ist auf ein Minimum an Datenvorbereitung beschränkt, jedoch könnte diese sehr viel umfangreicher ausfallen, was in Data-Science-Projekten auch zu empfehlen ist.

Tab. 6–3Vorverarbeitete Daten

Im nächsten Schritt wird für jeden Feature-Selection-Ansatz eine Methode ausgewählt, um diese auf den vorverarbeiteten Datensatz anzuwenden. Als Filter-Methode wird die Pearson-Korrelation genutzt und damit die drei wichtigsten Features ermittelt. Die rekursive Feature-Eliminierung mit einer logistischen Regression als Lernalgorithmus liefert ein Beispiel für die Wrapper-Methoden. Als Embedded-Methode tritt eine Methode mit Baumstruktur, die sogenannte Light Gradient Boosting Machine, an. Für alle drei Methoden sollen maximal drei der fünf zur Verfügung stehenden Features ausgewählt werden. Die Implementierung erfolgt in Python und ist angelehnt an einen Beitrag von Rahul Agarwal. Daraus sind der Code und die Parametereinstellungen zu entnehmen [Agarwal 2019]. Tabelle 6–4 zeigt die Korrelationskoeffizienten, die die Filter-Methode liefert. Sie geben den Zusammenhang zwischen den fünf Eingabefeatures und jeweils der Zielvariablen Überlebt an.

Tab. 6–4Korrelationskoeffizienten

Die drei Features mit dem höchsten absoluten Korrelationskoeffizienten lassen sich eindeutig ausmachen (Geschlecht, Ticketpreis, Fahrgastklasse). Das Vorzeichen und die Höhe dieser Werte halten eine inhaltliche Aussage bereit. Das Geschlecht weist den größten Zusammenhang mit der Zielvariablen auf. Wenn man bedenkt, dass der Wert 1 für das weibliche Geschlecht und die Überlebenden steht und sich entsprechend hinter dem Wert 0 männliche und nicht überlebende Passagiere verbergen, bedeutet eine hohe positive Korrelation, dass ein weiblicher Fahrgast meist vor den männlichen Mitreisenden gerettet wurde. Übertragen auf den Ticketpreis ergibt sich, dass ein teuer eingekauftes Ticket zu einer höheren Überlebenschance führte. Das negative Vorzeichen für den letzten Korrelationskoeffizienten lässt darauf schließen, dass Fahrgäste einer besseren Klasse, also First-Class-Reisende, eine höhere Aussicht auf eine Rettung hatten. In diesem Beispiel zeigt sich auch, dass der Koeffizient einer vermutlich zufällig vergebenen Fahrgastnummer den letzten Rang belegt und mit einem Wert von beinahe 0 keine Informationen für das vorliegende Vorhersageproblem bereitzuhalten scheint. Die Auswertung der rekursiven Feature-Eliminierung identifiziert ebenfalls das Geschlecht und die Fahrgastklasse als wichtigste Features, aber das Alter als drittes wichtiges Feature. Eine Interpretation, wie im vorherigen Beispiel der Filter-Methode, ist nicht möglich, da Wrapper-Methoden lediglich besagen, dass eine bestimmte Teilmenge die beste Eingabe darstellt. Die Feature Selection anhand einer Embedded-Methode liefert nur zwei, also das Geschlecht und die Fahrgastklasse, als nützliche Features zurück. Das bedeutet, dass keines der verbleibenden drei Features an einem weiteren Split einen Mehrwert für die Vorhersage bietet. Der Vergleich der Teilmengen der drei Methoden zeigt, dass nur die Filter-Methode den Ticketpreis für interessant hält. Wenn man hierbei die starke Korrelation von -0,55 für Ticketpreis und Fahrgastklasse betrachtet, lässt sich schlussfolgern, dass es sich um zwei redundante Features handelt. Von den beiden anderen Methoden, die Wechselwirkungen betrachten, wird dies erkannt und das weniger wichtige der beiden, folglich der Ticketpreis, ausgeschlossen. Gemäß der Korrelationsanalyse besteht kaum Zusammenhang zwischen dem Alter und der Zielvariablen, was aber die Wrapper-Methode als nützlich einstufte. Das Alter weist auf seine Wichtigkeit erst in Kombination mit anderen Features hin. Auch die Embedded-Methode verzichtet auf das Alter als Eingabe. Möglicherweise bringt es einen vernachlässigbar geringen Mehrwert im Sinne der Genauigkeit und das Prinzip der Sparsamkeit überwiegt oder die gierige Suche in einem Baum verhindert dessen Auswahl.

Zur Vollständigkeit wird ein Lernalgorithmus, die Support Vector Machine, für eine finale Evaluierung eingesetzt und deren Ergebnisse verglichen. Ganz bewusst fällt die Wahl auf ein Modell, das sensitiv auf überflüssige Features reagiert. An dieser Stelle ist darauf hinzuweisen, dass für dieses Modell vereinfachte Annahmen zugrunde liegen. Als Modellparameter werden Default-Einstellungen genutzt und es findet keine weitere Optimierung statt. Außerdem handelt es sich um einen sehr kleinen Datensatz, der in das Modelltraining eingeht. Die Vorhersagegenauigkeit wird anhand der Accuracy in einer 10-fachen Kreuzvalidierung gemessen. Sie gibt prozentual an, wie viele der Fahrgäste eines zufällig erstellten Testdatensatzes richtig klassifiziert werden. Für die Filter-Methode beträgt sie durchschnittlich 76,5 %, im Falle der Wrapper-Methode 80,0 % und für die Embedded-Methode 77,7 %. Im Vergleich erzielt ein Modell, das alle fünf Features berücksichtigt, nur 59,2 % und ist damit kaum besser als ein Raten. Damit wird der große Mehrwert einer Feature Selection in Bezug auf die Genauigkeit demonstriert. Die Ausführungszeit der einzelnen Methoden ist für den sehr kleinen Beispieldatensatz mit nur 714 Einträgen und 6 Spalten nicht aussagekräftig, da sie im Bereich von Millisekunden liegt. Jedoch macht sich auch hierbei schon bemerkbar, dass die Filter-Methode tendenziell einige Millisekunden schneller als die anderen beiden Methoden ist. Wirklich interessant wird die Rechendauer aber erst für größere Datensätze. Zur Abrundung dieses praktischen Anwendungsbeispiels zeigt Tabelle 6–5, welche Eigenschaften in den einzelnen drei Fällen besonders hervorstechen. Dafür sind die entsprechenden Felder mit einer unterschiedlichen Anzahl an Sternen versehen.

Tab. 6–5Auswertung des Beispiels anhand der zuvor genannten fünf Kriterien

6.5Fazit

Die Feature Selection ist ein Kernstück im Data-Science-Prozess und damit nicht weniger entscheidend als die Modellwahl. Die Feature Selection wählt die für ein vorliegendes Problem nützlichsten Features aus und entfernt dabei unwichtige, die keinen entsprechenden Mehrwert für ein Vorhersagemodell versprechen. Die zugrunde liegende Philosophie lautet schlicht: Weniger ist mehr. Dadurch erleichtert die Feature Selection einem Data-Science-Modell, den Anforderungen gerecht zu werden, die sich aus der Genauigkeit, Sparsamkeit, Interpretierbarkeit, Generalisierbarkeit und Kosteneffizienz ergeben. Durch die Anwendung der Feature Selection lassen sich bessere Modelle erstellen und die Herausforderung der heutzutage stetig wachsenden Datenmengen meistern.