KAPITEL 4

Entwurfsmuster für das Modelltraining

Modelle für maschinelles Lernen werden üblicherweise iterativ trainiert. Diesen iterativen Prozess nennt man formlos Trainingsschleife. In diesem Kapitel erläutern wir, wie die typische Trainingsschleife aussieht, und katalogisieren eine Reihe von Situationen, in denen Sie möglicherweise etwas anderes tun möchten.

Typische Trainingsschleife

Modelle für maschinelles Lernen lassen sich mit verschiedenen Arten der Optimierung trainieren. Entscheidungsbäume werden oft Knoten für Knoten nach einem Informationsgewinnmaß aufgebaut. Genetische Algorithmen stellen die Modellparameter als Gene dar, und die Optimierungsmethode umfasst Techniken, die auf der Evolutionstheorie fußen. Der gängigste Ansatz, um die Parameter von ML-Modellen zu bestimmen, ist jedoch der Gradientenabstieg.

Stochastischer Gradientenabstieg

Bei großen Datensätzen wird der Gradientenabstieg auf Mini-Batches der Eingabedaten angewendet, um alles – angefangen bei linearen Modellen und gewichteten Entscheidungsbäumen (Boosted Trees) bis hin zu tiefen neuronalen Netzen (Deep Neural Networks, DNNs) und Support Vector Machines (SVMs) – zu trainieren. Man spricht hierbei vom stochastischen Gradientenabstieg (SGD), und Erweiterungen von SGD (wie zum Beispiel Adam und Adagrad) sind die De-facto-Optimierer, die in modernen ML-Frameworks verwendet werden.

Da SGD verlangt, dass das Training iterativ auf kleinen Batches des Trainingsdatensatzes stattfindet, läuft das Training eines ML-Modells in einer Schleife ab. SGD findet ein Minimum, stellt aber keine geschlossene Lösung dar. Und so müssen wir ermitteln, ob die Modellkonvergenz stattgefunden hat. Deshalb muss der Fehler (Verlust genannt) auf dem Trainingsdatensatz überwacht werden. Zu einer Überanpassung (engl. Overfitting) kann es kommen, wenn die Modellkomplexität höher ist, als es Größe und Abdeckung des Datensatzes zulassen. Leider können Sie nicht wissen, ob die Modellkomplexität für einen bestimmten Datensatz zu hoch ist, bis Sie das Modell tatsächlich auf diesem Datensatz trainieren. Daher muss die Auswertung innerhalb der Trainingsschleife stattfinden, und die Fehlermetriken auf einem zurückgehaltenen Teil der Trainingsdaten – dem sogenannten Validierungsdatensatz – müssen ebenfalls überwacht werden. Da die Trainings- und Validierungsdatensätze in der Trainingsschleife verwendet worden sind, ist es notwendig, einen weiteren Teil des Trainingsdatensatzes – den sogenannten Testdatensatz – zurückzuhalten, um die tatsächlichen Fehlermetriken zu melden, die für neue und bisher ungesehene Daten zu erwarten wären. Diese Auswertung wird am Ende durchgeführt.

Keras-Trainingsschleife

Die typische Trainingsschleife sieht in Keras wie folgt aus:

model = keras.Model(...)

model.compile(optimizer=keras.optimizers.Adam(),

loss=keras.losses.categorical_crossentropy(),

metrics=['accuracy'])

history = model.fit(x_train, y_train,

batch_size=64,

epochs=3,

validation_data=(x_val, y_val))

results = model.evaluate(x_test, y_test, batch_size=128))

model.save(...)

Hier verwendet das Modell den Adam-Optimierer, um SGD auf der Kreuzentropie über dem Trainingsdatensatz auszuführen, und meldet die für den Testdatensatz erhaltene endgültige Genauigkeit. Die Modellanpassung durchläuft den Trainingsdatensatz dreimal (jeder Durchgang über dem Trainingsdatensatz wird als Epoche bezeichnet), wobei das Modell Batches, bestehend aus jeweils 64 Trainingsbeispielen, sieht. Am Ende jeder Epoche werden die Fehlermetriken auf dem Validierungsdatensatz berechnet und zur Geschichte (history) hinzugefügt. Am Ende der Anpassungsschleife wird das Modell auf dem Testdatensatz bewertet, gespeichert und potenziell für das Serving bereitgestellt, wie Abbildung 4-1 zeigt.

Abbildung 4-1: Eine typische Trainingsschleife, die aus drei Epochen besteht. Jede Epoche wird in Chunks von »batch_size« Beispielen verarbeitet. Am Ende der dritten Epoche wird das Modell auf dem Testdatensatz ausgewertet und für eine mögliche Bereitstellung als Webservice gespeichert.

Anstatt die vordefinierte Funktion fit() zu verwenden, können wir auch eine benutzerdefinierte Trainingsschleife schreiben, die explizit über die Batches iteriert. Aber wir werden dies für keines der in diesem Kapitel besprochenen Entwurfsmuster benötigen.

Training-Entwurfsmuster

Die in diesem Kapitel behandelten Entwurfsmuster haben alle damit zu tun, die typische Trainingsschleife in irgendeiner Weise zu modifizieren. In »Entwurfsmuster 11: Nützliche Überanpassung« verzichten wir darauf, einen Validierungs- oder Testdatensatz zu verwenden, weil wir absichtlich eine Überanpassung auf dem Trainingsdatensatz anstreben. In »Entwurfsmuster 12: Checkpoints« speichern wir den vollständigen Status des Modells periodisch, damit wir auf teilweise trainierte Modelle zugreifen können. Im Zusammenhang mit Checkpoints verwenden wir normalerweise auch virtuelle Epochen, in denen wir dazu entscheiden, die innere Schleife der Funktion fit() nicht auf dem vollständigen Trainingsdatensatz, sondern auf einer festen Anzahl von Trainingsbeispielen auszuführen. In »Entwurfsmuster 13: Transfer Learning« nehmen wir einen Teil eines zuvor trainierten Modells, frieren die Gewichte ein und integrieren diese nicht trainierbaren Schichten in ein neues Modell, das das gleiche Problem löst, allerdings auf einem kleineren Datensatz. In »Entwurfsmuster 14: Verteilungsstrategie« wird die Trainingsschleife in großem Umfang über mehrere Worker ausgeführt, oft mit Caching, Hardwarebeschleunigung und Parallelisierung. Schließlich wird in »Entwurfsmuster 15: Hyperparameter-Abstimmung« die Trainingsschleife selbst in eine Optimierungsmethode eingefügt, um den optimalen Satz von Hyperparametern für das Modell zu finden.

Entwurfsmuster 11: Nützliche Überanpassung

Nützliche Überanpassung ist ein Entwurfsmuster, bei dem wir darauf verzichten, Mechanismen zur Verallgemeinerung anzuwenden, weil wir absichtlich eine Überanpassung auf dem Trainingsdatensatz anstreben. In Situationen, in denen Überanpassung vorteilhaft sein kann, empfiehlt dieses Entwurfsmuster, maschinelles Lernen ohne Regularisierung, Dropout oder einen Validierungsdatensatz zum Early Stopping durchzuführen.

Problem

Ein Modell für maschinelles Lernen soll verallgemeinern und zuverlässige Vorhersagen mit neuen, ungesehenen Daten treffen. Wenn sich Ihr Modell an die Trainingsdaten überanpasst (zum Beispiel den Trainingsfehler über den Punkt hinaus verringert, an dem der Validierungsfehler zu steigen beginnt), kann es nicht mehr richtig verallgemeinern, und damit werden auch Ihre zukünftigen Vorhersagen schlechter. Lehrbücher mit Einführungen zum maschinellen Lernen raten dazu, Überanpassung durch Early Stopping und Techniken zur Regularisierung zu vermeiden.

Stellen Sie sich jedoch vor, Sie simulierten das Verhalten von physikalischen oder dynamischen Systemen, wie sie in der Klimaforschung, der Computerbiologie oder im Finanzwesen vorkommen. In derartigen Systemen lässt sich die Zeitabhängigkeit der Beobachtungen durch eine mathematische Funktion oder einen Satz von partiellen Differentialgleichungen (engl. Partial Differential Equation, PDE) beschreiben. Obwohl man die Gleichungen, die für viele dieser Systeme bestimmend sind, formal ausdrücken kann, haben sie keine Lösung in geschlossener Form. Stattdessen sind klassische numerische Methoden entwickelt worden, um die Lösungen für diese Systeme zu approximieren. Leider können diese Methoden bei vielen realen Anwendungen zu langsam sein, um sie in der Praxis zu verwenden.

Sehen Sie sich die Situation an, die in Abbildung 4-2 dargestellt ist. Die aus der physikalischen Umgebung gesammelten Beobachtungen dienen als Eingaben (oder anfängliche Startbedingungen) für ein physikalisch basiertes Modell, das iterative, numerische Berechnungen durchführt, um den präzisen Zustand des Systems zu berechnen. Wir nehmen an, dass die Anzahl der Möglichkeiten bei allen Beobachtungen endlich ist (zum Beispiel liegt die Temperatur zwischen 60 und 80 °C und wird in Schritten von 0,01 Grad gemessen). Es ist dann möglich, einen Trainingsdatensatz für das ML-System zu erstellen, der aus dem gesamten Eingaberaum besteht, und die Labels mithilfe des physikalischen Modells zu berechnen.

Abbildung 4-2: Eine Überanpassung ist in einer Situation akzeptabel, wenn der gesamte Domänenraum der Beobachtungen tabellarisch dargestellt werden kann und es ein physikalisches Modell gibt, das die genaue Lösung berechnen kann.

Das ML-Modell muss diese genau berechnete und nicht überlappende Nachschlagetabelle von Eingaben zu Ausgaben lernen. Es wäre kontraproduktiv, einen derartigen Datensatz in einen Trainingsdatensatz und einen Evaluierungsdatensatz aufzuteilen, weil wir dann erwarten würden, dass das Modell Teile des Eingaberaums lernt, die es im Trainingsdatensatz nicht gesehen hat.

Lösung

In diesem Szenario gibt es keine »ungesehenen« Daten, die verallgemeinert werden müssen, da alle möglichen Eingaben tabellarisch erfasst worden sind. Wenn man ein ML-Modell erstellt, das ein derartiges physikalisches Modell oder dynamisches System lernen soll, gibt es so etwas wie Überanpassung nicht. Das grundlegende ML-Trainingsparadigma sieht etwas anders aus. Hier gibt es ein physikalisches Phänomen, das Sie zu lernen versuchen und das durch eine darunterliegende PDE oder ein System von PDEs bestimmt wird. Maschinelles Lernen bietet lediglich einen datengesteuerten Ansatz, um die präzise Lösung anzunähern, und Konzepte wie Überanpassung müssen neu bewertet werden.

Zum Beispiel simuliert man mit einem Ray-Tracing-Ansatz Satellitenbilder, die sich aus der Ausgabe von numerischen Wettervorhersagemodellen ergeben würden. Dabei ist auch zu berechnen, welcher Anteil eines Sonnenstrahls durch die vorhergesagten Hydrometeoren (Regentropen, Schneeflocken, Hagelkörner, Eiskörner usw.) auf jeder atmosphärischen Ebene absorbiert wird. Es gibt eine endliche Anzahl möglicher Hydrometeortypen und eine endliche Anzahl von Höhen, die das numerische Modell vorhersagt. Somit muss das Ray-Tracing-Modell optische Gleichungen auf einen großen, aber endlichen Satz von Eingaben anwenden.

Die Gleichungen des Strahlungstransfers bestimmen das komplexe dynamische System der Ausbreitung elektromagnetischer Strahlung in der Atmosphäre, und Vorwärts-Strahlungsmodelle sind ein effektives Instrument, um auf den zukünftigen Zustand von Satellitenbildern zu schließen. Die klassischen numerischen Methoden, mit denen die Lösungen dieser Gleichungen berechnet werden, können jedoch einen enormen Rechenaufwand erfordern und sind zu langsam, um sie in der Praxis einzusetzen.

Hier kommt maschinelles Lernen ins Spiel. Mit maschinellem Lernen lässt sich ein Modell erstellen, das Lösungen für das Vorwärts-Strahlungstransfermodell (https://oreil.ly/IkYKm) annähert (siehe Abbildung 4-3). Der ursprünglich mit eher klassischen Methoden erreichten Lösung des Modells kann diese ML-Approximation nahe genug kommen. Der Vorteil ist, dass eine Inferenz mithilfe gelernter ML-Approximation (die lediglich eine geschlossene Formel berechnen muss) nur einen Bruchteil der Zeit für das Ray-Tracing (das numerische Methoden erfordern würde) benötigt. Gleichzeitig ist der Trainingsdatensatz zu groß (mehrere TBytes) und zu unhandlich, um ihn in der Produktion als Nachschlagetabelle zu verwenden.

Abbildung 4-3: Architektur, um mit einem neuronalen Netz die Lösung einer partiellen Differentialgleichung zu modellieren, die für I(r, t, n) zu lösen ist

Es gibt einen wichtigen Unterschied zwischen dem Training eines ML-Modells, das die Lösung eines derartigen dynamischen Systems annähert, und dem Training eines ML-Modells, das Babygewichte basierend auf im Laufe der Jahre gesammelten Geburtsdaten vorhersagt. Das dynamische System ist nämlich ein Satz von Gleichungen, die den Gesetzen der elektromagnetischen Strahlung unterliegen – es gibt keine unbeobachtete Variable, kein Rauschen und keine statistische Variabilität. Für einen gegebenen Satz von Eingaben gibt es nur eine genau berechenbare Ausgabe. Es gibt keine Überschneidungen zwischen verschiedenen Beispielen im Trainingsdatensatz. Aus diesem Grund können wir die Bedenken in Bezug auf die Generalisierung über Bord werfen. Wir möchten, dass sich unser Modell so perfekt wie möglich an die Trainingsdaten anpasst, also »überanpasst«.

Dies steht im Gegensatz zum typischen Trainingsansatz eines ML-Modells, bei dem Überlegungen zu Bias, Varianz und Generalisierungsfehlern eine wichtige Rolle spielen. Traditionelles Training besagt, dass ein Modell die Trainingsdaten »zu gut« lernen kann und dass das Trainieren Ihres Modells bis zu dem Punkt, an dem die Verlustfunktion gleich null ist, eher ein Warnsignal auslöst als ein Grund zum Feiern ist. Eine Überanpassung des Trainingsdatensatzes auf diese Weise führt dazu, dass das Modell falsche Vorhersagen für neue, ungesehene Datenpunkte gibt. Der Unterschied besteht darin, dass wir im Voraus wissen, dass es keine ungesehenen Daten geben wird, sodass das Modell eine Lösung für eine partielle Differentialgleichung über das gesamte Eingabespektrum approximiert. Wenn Ihr neuronales Netz in der Lage ist, einen Satz von Parametern zu lernen, wobei die Verlustfunktion null ist, dann bestimmt dieser Parametersatz die tatsächliche Lösung der fraglichen partiellen Differentialgleichung.

Warum es funktioniert

Können alle möglichen Eingaben tabellarisch dargestellt werden, trifft ein überangepasstes Modell immer noch dieselben Vorhersagen – siehe die gestrichelte Linie in Abbildung 4-4 – wie das »wahre« Modell, wenn für alle möglichen Eingabepunkte trainiert wird. Somit ist Überanpassung kein Problem. Wir müssen darauf achten, dass Inferenzen auf abgerundete Werte der Eingaben erfolgen, wobei die Rundung durch die Auflösung bestimmt wird, mit der der Eingaberaum gerastert wurde.

Abbildung 4-4: Überanpassung ist kein Problem, wenn für alle möglichen Eingabepunkte trainiert wird, da die Vorhersagen bei beiden Kurven gleich sind.

Ist es möglich, eine Modellfunktion zu finden, die beliebig nahe an die wahren Labels herankommt? Ein Hinweis darauf, warum dies funktioniert, ergibt sich aus dem Universal Approximation Theorem des Deep Learning, das im Wesentlichen besagt, dass jede Funktion (und ihre Ableitungen) durch ein neuronales Netz mit mindestens einer verdeckten Schicht und einer beliebigen »quetschenden« Aktivierungsfunktion wie Sigmoid angenähert werden kann. Das heißt, dass unabhängig von der gegebenen Funktion – solange sie sich einigermaßen gutartig verhält – ein neuronales Netz mit nur einer verdeckten Schicht existiert, das diese Funktion so genau wie gewünscht approximiert.1

Deep-Learning-Ansätze zum Lösen von Differentialgleichungen oder komplexen dynamischen Systemen streben danach, eine Funktion, die implizit durch eine Differentialgleichung oder ein System von Gleichungen definiert ist, mithilfe eines neuronalen Netzes darzustellen.

Überanpassung ist nützlich, wenn die beiden folgenden Bedingungen erfüllt sind:

Es gibt kein Rauschen, sodass die Labels für Instanzen genau sind.
Der vollständige Datensatz steht zur Verfügung (Sie verfügen über alle Beispiele, die es gibt). In diesem Fall wird Überanpassung zum Interpolieren des Datensatzes.

Kompromisse und Alternativen

Wir haben Überanpassung als nützlich eingeführt, wenn der Satz der Eingaben erschöpfend aufgelistet und das genaue Label für jeden Satz von Eingaben berechnet werden kann. Wenn sich der gesamte Eingaberaum tabellarisch auflisten lässt, ist Überanpassung kein Problem, da es keine ungesehenen Daten gibt. Jedoch ist das Entwurfsmuster Nützliche Überanpassung über diesen engen Anwendungsfall hinaus nützlich. In vielen realen Situationen bleibt das Konzept gültig, dass Überanpassung nützlich sein kann, selbst wenn eine oder mehrere dieser Bedingungen gelockert werden müssen.

Interpolation und Chaostheorie

Das ML-Modell funktioniert im Wesentlichen als Approximation einer Nachschlagetabelle von Eingaben zu Ausgaben. Ist die Nachschlagetabelle klein, verwenden Sie sie einfach als Nachschlagetabelle! Es ist nicht notwendig, sie durch ein ML-Modell anzunähern. Eine ML-Approximation ist nützlich in Situationen, in denen die Nachschlagetabelle zu groß ist, um sie effektiv zu verwenden. Sollte die Nachschlagetabelle zu unhandlich sein, ist es besser, sie als Trainingsdatensatz für ein ML-Modell zu behandeln, das die Nachschlagetabelle approximiert.

Wir haben aber nun angenommen, dass die Beobachtungen eine endliche Anzahl von Möglichkeiten haben, zum Beispiel dass die Temperatur in Schritten von 0,01 °C gemessen wird und zwischen 60 °C und 80 °C liegt. Dies wird der Fall sein, wenn die Beobachtungen mit digitalen Instrumenten vorgenommen werden. Andernfalls ist das ML-Modell erforderlich, um zwischen den Einträgen in der Nachschlagetabelle zu interpolieren.

ML-Modelle interpolieren, indem sie ungesehene Werte entsprechend ihrem Abstand zu Trainingsbeispielen gewichten. Eine derartige Interpolation funktioniert nur, wenn das zugrunde liegende System nicht chaotisch ist. In chaotischen Systemen können kleine Unterschiede in den Anfangsbedingungen zu dramatisch unterschiedlichen Ergebnissen führen, selbst wenn das System deterministisch ist.

In der Praxis hat jedoch jedes spezifische chaotische Phänomen eine bestimmte Auflösungsschwelle (https://oreil.ly/F-drU), ab der es für Modelle möglich ist, das Phänomen über kurze Zeiträume vorherzusagen. Wenn also die Nachschlagetabelle genügend fein ist und die Grenzen der Auflösbarkeit bekannt sind, können sich brauchbare Approximationen ergeben.

Monte-Carlo-Methoden

In der Realität ist es nicht immer möglich, alle möglichen Eingaben tabellarisch zu erfassen. Vielleicht greifen Sie zu einem Monte-Carlo-Ansatz (https://oreil.ly/pTgS9), um eine Stichprobe aus dem Eingaberaum zu ziehen und den Satz der Eingaben zu bilden. Das gilt insbesondere dort, wo nicht alle möglichen Eingabekombinationen physikalisch möglich sind.

In derartigen Fällen ist Überanpassung technisch möglich (siehe Abbildung 4-5, wobei die leeren Kreise durch falsche Schätzungen – dargestellt durch Kreise mit einem Kreuz – approximiert werden).

Abbildung 4-5: Wenn der Eingaberaum abgetastet und nicht tabellarisch erfasst wird, müssen Sie darauf achten, die Modellkomplexität zu begrenzen.

Aber auch hier können Sie sehen, dass das ML-Modell zwischen bekannten Antworten interpoliert. Die Berechnung ist immer deterministisch, nur die Eingabepunkte werden zufällig ausgewählt. Demzufolge enthalten diese bekannten Antworten kein Rauschen, und weil es keine unbeobachteten Variablen gibt, sind Fehler bei nicht in der Stichprobe enthaltenen Punkten streng durch die Modellkomplexität begrenzt. Hier kommt die Gefahr der Überanpassung von der Modellkomplexität und nicht von der Anpassung an das Rauschen. Überanpassung ist nicht so sehr ein Problem, wenn die Größe des Datensatzes größer als die Anzahl der freien Parameter ist. Daher bietet eine Kombination aus Modellen geringer Komplexität und schwacher Regularisierung eine praktische Möglichkeit, inakzeptable Überanpassung bei Monte-Carlo-Auswahl des Eingaberaums zu vermeiden.

Datengesteuerte Diskretisierungen

Obwohl sich für einige PDEs eine Lösung in geschlossener Form ableiten lässt, ist es üblicher, Lösungen mit numerischen Methoden zu bestimmen. Numerische Methoden von PDEs sind bereits ein großes Forschungsgebiet, und es gibt viele Bücher (https://oreil.ly/RJWVQ), Kurse (https://oreil.ly/wcl_n) und Fachzeitschriften (https://msp.org/apde), die sich mit diesem Thema beschäftigen. Ein gängiger Ansatz ist die Verwendung von Finite-Differenzen-Methoden – ähnlich dem Runge-Kutta-Verfahren – für die Lösung gewöhnlicher Differentialgleichungen. Dies geschieht typischerweise durch Diskretisierung des Differentialoperators der PDE und dem Suchen einer Lösung für das diskrete Problem auf einem räumlich-zeitlichen Gitter des ursprünglichen Bereichs. Wenn die Dimension des Problems groß wird, scheitert dieser maschenbasierte Ansatz wegen des Fluchs der Dimensionalität dramatisch, weil der Maschenabstand des Gitters klein genug (https://oreil.ly/TxHD-) sein muss, um die kleinste Feature-Größe der Lösung zu erfassen. Um also eine 10-fach höhere Auflösung eines Bilds zu erreichen, ist die 10.000-fache Rechenleistung erforderlich, da das Maschengitter in vier Dimensionen – für Raum und Zeit – skaliert werden muss.

Es ist jedoch möglich, mit maschinellen Lernmethoden (statt Monte-Carlo-Methoden) die Stichprobenpunkte auszuwählen, um datengesteuerte Diskretisierungen von PDEs zu erzeugen. Im Paper »Learning data-driven discretizations for PDEs« (https://oreil.ly/djDkK) demonstrieren Bar-Sinai et al. die Wirksamkeit dieses Ansatzes. Die Autoren verwenden ein Gitter fester Punkte in geringer Auflösung, um sich einer Lösung anzunähern durch eine stückweise Polynominterpolation mithilfe von standardmäßigen Finite-Differenzen-Methoden sowie durch ein neuronales Netz. Die aus dem neuronalen Netz erhaltene Lösung übertrifft die numerische Simulation bei der Minimierung des absoluten Fehlers enorm und erreicht an manchen Stellen eine Verbesserung um 10² Größenordnungen. Während eine höhere Auflösung beträchtlich mehr Rechenleistung bei Finite-Differenzen-Methoden erfordert, ist das neuronale Netz in der Lage, eine hohe Performance mit nur marginalen Zusatzkosten beizubehalten. Techniken wie die Deep-Galerkin-Methode können dann Deep Learning verwenden, um eine maschenfreie Approximation der Lösung für die gegebene PDE zu liefern. Auf diese Weise wird das Lösen der partiellen Differentialgleichung auf ein verkettetes Optimierungsproblem reduziert (siehe »Entwurfsmuster 8: Kaskade« auf Seite 130).

Deep-Galerkin-Methode

Die Deep-Galerkin-Methode (https://oreil.ly/rQy4d) ist ein Deep-Learning-Algorithmus zum Lösen von partiellen Differentialgleichungen. Der Algorithmus ähnelt im Geiste den Galerkin-Methoden, die im Bereich der numerischen Analyse verwendet werden, wobei die Lösung mithilfe eines neuronalen Netzes anstelle einer Linearkombination von Basisfunktionen approximiert wird.

Unbeschränkte Domänen

Die Monte-Carlo-Methoden und die datengesteuerten Diskretisierungsmethoden gehen davon aus, dass eine Abtastung des gesamten Eingaberaums, wenn auch unvollkommen, möglich ist. Deshalb wurde das ML-Modell als Interpolation zwischen bekannten Punkten behandelt.

Verallgemeinerung und das Problem der Überanpassung lassen sich nur schwer ignorieren, wenn wir nicht in der Lage sind, Punkte im gesamten Bereich der Funktion abzutasten – zum Beispiel für Funktionen mit unbeschränkten Domänen oder Projektionen entlang einer Zeitachse in die Zukunft. In dieser Umgebung ist es wichtig, Überanpassung, Unteranpassung und Generalisierungsfehler zu berücksichtigen. Es hat sich nämlich gezeigt, dass zwar Techniken wie die Deep-Galerkin-Methode in gut abgetasteten Bereichen gut funktionieren, aber eine Funktion, die auf diese Weise gelernt wird, generalisiert nur mäßig in Bereichen außerhalb der Domäne, die in der Trainingsphase nicht abgetastet wurden. Dies kann problematisch sein, wenn partielle Differentialgleichungen durch maschinelles Lernen gelöst werden sollen, wenn diese Gleichungen auf unbeschränkten Domänen definiert sind, da es unmöglich wäre, eine repräsentative Stichprobe für das Training zu erfassen.

Wissen aus einem neuronalen Netz destillieren

Überanpassung ist auch gerechtfertigt, wenn Wissen aus einem großen ML-Modell in ein kleineres destilliert oder übertragen werden soll. Wissensdestillation ist nützlich, wenn die Lernkapazität des großen Modells nicht voll ausgeschöpft wird. In derartigen Fällen ist die rechentechnische Kapazität des großen Modells möglicherweise nicht notwendig. Es stimmt aber auch, dass kleinere Modelle schwieriger zu trainieren sind. Das kleinere Modell besitzt zwar genügend Kapazität, um das Wissen darzustellen, doch hat es vielleicht nicht genügend Kapazität, um das Wissen effizient zu lernen.

Die Lösung besteht darin, das kleinere Modell auf einer großen Menge von generierten Daten zu trainieren, die durch das größere Modell gelabelt werden. Das kleinere Modell lernt die Soft-Ausgabe des größeren Modells anstelle der tatsächlichen Labels auf realen Daten. Dies ist ein einfacheres Problem, das von dem kleineren Modell gelernt werden kann. Wie bei der Approximation einer numerischen Funktion durch ein ML-Modell soll das kleinere Modell die Vorhersagen des größeren ML-Modells getreu darstellen. Dieser zweite Trainingsschritt kann Nützliche Überanpassung verwenden.

Überanpassen eines Batches

In der Praxis erfordert das Training eines neuronalen Netzes zahlreiche Experimente. Praktiker:innen müssen viele Entscheidungen treffen, angefangen bei der Größe und der Architektur des Netzwerks bis hin zur Wahl der Lernrate, den Gewichtsinitialisierungen oder anderen Hyperparametern. Überanpassung auf einem kleinen Batch ist eine gute Plausibilitätsprüfung (https://oreil.ly/AcLtu) sowohl für den Modellcode als auch für die Dateneingabepipeline. Nur weil sich das Modell kompilieren lässt und der Code ohne Fehler läuft, heißt das nicht, dass Sie das berechnet haben, was Sie berechnet zu haben glauben, oder dass das Trainingsziel richtig konfiguriert ist. Ein ausreichend komplexes Modell sollte in der Lage sein, einen genügend kleinen Batch von Daten überanzupassen, vorausgesetzt, dass alles richtig eingerichtet ist. Wenn Sie also einen kleinen Batch mit einem Modell nicht überanpassen können, sollten Sie Ihren Modellcode, die Eingabepipeline und die Verlustfunktion noch einmal auf Fehler oder einfache Bugs überprüfen. Überanpassung auf einem Batch ist eine nützliche Technik, wenn man neuronale Netze trainiert und auf Fehler untersucht.

Überanpassung geht über nur einen Batch hinaus. Aus einer ganzheitlichen Perspektive folgt Überanpassung der allgemeinen Empfehlung, die in Bezug auf Deep Learning und Regularisierung häufig gegeben wird. Das am besten angepasste Modell ist ein großes Modell, das in geeigneter Weise regularisiert wurde (https://oreil.ly/A7DFC). Kurz gesagt, wenn Ihr tiefes neuronales Netz nicht zu einer Überanpassung an den Trainingsdatensatz in der Lage ist, sollten Sie ein größeres verwenden. Sobald Sie dann ein ausreichend großes Modell haben, das zu einer Überanpassung an den Trainingsdatensatz fähig ist, können Sie Regularisierung anwenden, um die Validierungsgenauigkeit zu verbessern, selbst wenn die Trainingsgenauigkeit möglicherweise abnimmt.

Ihren Keras-Modellcode können Sie auf diese Weise mit dem tf.data.Dataset testen, das Sie für Ihre Eingabepipeline geschrieben haben. Wenn Ihre Trainingsdaten-Eingabepipeline zum Beispiel trainds heißt, rufen Sie mit batch() einen einzelnen Daten-Batch ab. Den vollständigen Code für dieses Beispiel finden Sie im Repository zu diesem Buch (https://github.com/GoogleCloudPlatform/ml-design-patterns/blob/master/04_hacking_training_loop/distribution_strategies.ipynb):

BATCH_SIZE = 256

single_batch = trainds.batch(BATCH_SIZE).take(1)

Wenn Sie dann das Modell trainieren, rufen Sie in der Methode fit() nicht den gesamten trainds-Datensatz auf, sondern verwenden diesen eben erzeugten einzelnen Batch:

model.fit(single_batch.repeat(),

validation_data=evalds,

...)

Mit dem Aufruf von repeat() stellen wir sicher, dass uns die Daten nicht ausgehen, wenn wir auf diesem einzelnen Batch trainieren. Während des Trainings nehmen wir also diesen einen Batch immer und immer wieder. Alles andere (der Validierungsdatensatz, der Modellcode, die Engineered Features usw.) bleibt gleich.

Anstatt eine willkürliche Stichprobe des Trainingsdatensatzes auszuwählen, empfehlen wir, dass Sie eine Überanpassung an einem kleinen Datensatz vornehmen, dessen Beispiele sorgfältig auf korrekte Labels hin überprüft wurden. Entwerfen Sie die Architektur Ihres neuronalen Netzes so, dass es in der Lage ist, diesen Batch genau zu lernen und zu einem Verlust von null zu kommen. Dann nehmen Sie dasselbe Netz und trainieren es mit dem vollständigen Trainingsdatensatz.

Entwurfsmuster 12: Checkpoints

In Checkpoints speichern wir den vollständigen Status des Modells periodisch, sodass wir partiell trainierte Modelle zur Verfügung haben. Diese partiell trainierten Modelle können als endgültiges Modell dienen (im Fall eines vorzeitigen Stoppens) oder als Ausgangspunkte für das weitere Training (im Fall von Hardwareausfall und Feinabstimmung).