Maschinelles Lernen · 2. Auflage by Alpaydin, Ethem -- Read -- Imperial Library of Trantor

Index

Title Page Copyright Contents Vorwort Notationen 1 Einführung

1.1 Was ist maschinelles Lernen? 1.2 Beispiele für Anwendungen des maschinellen Lernens

1.2.1 Assoziationsregeln 1.2.2 Klassifikation 1.2.3 Regression 1.2.4 Unüberwachtes Lernen 1.2.5 Bestärkendes Lernen

1.3 Geschichte 1.4 Angrenzende Themenfelder

1.4.1 Hochleistungsrechnen 1.4.2 Datenschutz und Datensicherheit 1.4.3 Interpretierbarkeit und Vertrauenswürdigkeit des Modells 1.4.4 Data Science

1.5 Übungen 1.6 Literaturangaben

2 Überwachtes Lernen

2.1 Lernen einer Klasse aus Beispielen 2.2 Vapnik-Chervonenkis-Dimension 2.3 PAC-Lernen 2.4 Rauschen 2.5 Lernen multipler Klassen 2.6 Regression 2.7 Modellauswahl und Generalisierung 2.8 Dimensionen eines Algorithmus für überwachtes Lernen 2.9 Anmerkungen 2.10 Übungen 2.11 Literaturangaben

3 Bayessche Entscheidungstheorie

3.1 Einführung 3.2 Klassifikation 3.3 Verluste und Risiken 3.4 Diskriminanzfunktionen 3.5 Assoziationsregeln 3.6 Anmerkungen 3.7 Übungen 3.8 Literaturangaben

4 Parametrische Methoden

4.1 Einführung 4.2 Maximum-Likelihood-Schätzung

4.2.1 Bernoulli-Verteilung 4.2.2 Multinomiale Dichte 4.2.3 Gauß-Verteilung (Normalverteilung)

4.3 Bewertung eines Schätzers: Verzerrung und Varianz 4.4 Der Bayessche Schätzer 4.5 Parametrische Klassifikation 4.6 Regression 4.7 Anpassung der Modellkomplexität: Das Verzerrung-Varianz-Dilemma 4.8 Modellauswahl 4.9 Anmerkungen 4.10 Übungen 4.11 Literaturangaben

5 Multivariate Methoden

5.1 Multivariate Daten 5.2 Parameterschätzung 5.3 Schätzung von fehlenden Werten 5.4 Multivariate Normalverteilung 5.5 Multivariate Klassifikation 5.6 Anpassen der Komplexität 5.7 Diskrete Merkmale 5.8 Multivariate Regression 5.9 Anmerkungen 5.10 Übungen 5.11 Literaturangaben

6 Dimensionalitätsreduktion

6.1 Einführung 6.2 Teilmengenselektion 6.3 Hauptkomponentenanalyse 6.4 Merkmalseinbettung 6.5 Faktorenanalyse 6.6 Singulärwertzerlegung und Faktorisierung von Matrizen 6.7 Multidimensionale Skalierung 6.8 Lineare Diskriminanzanalyse 6.9 Kanonische Korrelationsanalyse 6.10 Isomap 6.11 Lokal lineare Einbettung 6.12 Laplacesche Eigenmaps 6.13 t-verteilte stochastische Nachbareinbettung 6.14 Anmerkungen 6.15 Übungen 6.16 Literaturangaben

7 Clusteranalyse

7.1 Einführung 7.2 Mischungsdichten 7.3 k-Means-Clusteranalyse 7.4 Expectation-Maximization-Algorithmus 7.5 Mischungsmodelle mit verborgenen Variablen 7.6 Überwachtes Lernen nach einer Clusteranalyse 7.7 Spektrale Clusteranalyse 7.8 Hierarchische Clusteranalyse 7.9 Wahl der Clusteranzahl 7.10 Anmerkungen 7.11 Übungen 7.12 Literaturangaben

8 Nichtparametrische Methoden

8.1 Einführung 8.2 Nichtparametrische Dichteschätzung

8.2.1 Histogrammschätzer 8.2.2 Kernel-Schätzer 8.2.3 k-Nächste-Nachbarn-Schätzer

8.3 Verallgemeinerung auf multivariate Daten 8.4 Nichtparametrische Klassifikation 8.5 Verdichtete Nächste-Nachbarn-Methode 8.6 Abstandsbasierte Klassifikation 8.7 Ausreißererkennung 8.8 Nichtparametrische Regression: Glättungsmodelle

8.8.1 Gleitende Mittelwertglättung 8.8.2 Glättung durch Kernel-Funktion 8.8.3 Gleitende Linienglättung

8.9 Wahl des glättenden Hyperparameters 8.10 Anmerkungen 8.11 Übungen 8.12 Literaturangaben

9 Entscheidungsbäume

9.1 Einführung 9.2 Univariate Bäume

9.2.1 Klassifikationsbäume 9.2.2 Regressionsbäume

9.3 Pruning 9.4 Regelextraktion aus Bäumen 9.5 Lernen von Regeln anhand von Daten 9.6 Multivariate Bäume 9.7 Anmerkungen 9.8 Übungen 9.9 Literaturangaben

10 Lineare Diskriminanz

10.1 Einführung 10.2 Generalisierung des linearen Modells 10.3 Geometrie der linearen Diskriminanz

10.3.1 Zwei Klassen 10.3.2 Multiple Klassen

10.4 Paarweise Trennung 10.5 Neubetrachtung der parametrischen Diskriminanz 10.6 Gradientenabstieg 10.7 Logistische Diskriminanz

10.7.1 Zwei Klassen 10.7.2 Multiple Klassen 10.7.3 Multiple Labels

10.8 Lernen von Rangordnungen 10.9 Anmerkungen 10.10 Übungen 10.11 Literaturangaben

11 Mehrlagige Perzeptronen

11.1 Einführung

11.1.1 Das Gehirn verstehen 11.1.2 Neuronale Netze als Paradigma für die Parallelverarbeitung

11.2 Das Perzeptron 11.3 Training eines Perzeptrons 11.4 Lernen von Booleschen Funktionen 11.5 Mehrlagige Perzeptronen 11.6 Das MLP als universelle Näherungsfunktion 11.7 Backpropagation

11.7.1 Nichtlineare Regression 11.7.2 Zweiklassendiskriminanz 11.7.3 Diskriminanz bei multiplen Klassen 11.7.4 Diskriminanz bei multiplen Labeln

11.8 Übertraining 11.9 Lernen verborgener Darstellungen 11.10 Autoencoder 11.11 Die word2vec-Architektur 11.12 Anmerkungen 11.13 Übungen 11.14 Literaturangaben

12 Tiefes Lernen

12.1 Einführung 12.2 Training mehrerer verborgener Schichten

12.2.1 Rektifizierte lineare Einheit 12.2.2 Initialisierung 12.2.3 Verallgemeinerung der Backpropagation auf mehrere verborgene Schichten

12.3 Verbessern der Trainingskonvergenz

12.3.1 Momentum 12.3.2 Adaptiver Lernfaktor 12.3.3 Batch-Normalisierung

12.4 Regularisierung

12.4.1 Hinweise 12.4.2 Gewichtsabbau 12.4.3 Dropout

12.5 Faltungsschichten

12.5.1 Die Idee 12.5.2 Formalisierung 12.5.3 Beispiele: LeNet-5 und AlexNet 12.5.4 Erweiterungen 12.5.5 Multimodale tiefe Netze

12.6 Einstellen der Netzwerkstruktur

12.6.1 Struktursuche und Hyperparametersuche 12.6.2 Sprungverbindungen 12.6.3 Gattereinheiten

12.7 Lernen von Sequenzen

12.7.1 Beispielaufgaben 12.7.2 Neuronale Netze mit Zeitverzögerung 12.7.3 Rekurrente Netze 12.7.4 Langes Kurzzeitgedächtnis 12.7.5 Gated Recurrent Unit (GRU)

12.8 Generative gegnerische Netze 12.9 Anmerkungen 12.10 Übungen 12.11 Literaturangaben

13 Lokale Modelle

13.1 Einführung 13.2 Kompetitives Lernen

13.2.1 Online-k-Means-Algorithmus 13.2.2 Adaptive Resonanztheorie 13.2.3 Selbstorganisierende Merkmalskarten

13.3 Radiale Basisfunktionen 13.4 Regelbasiertes Wissen 13.5 Normalisierte Basisfunktionen 13.6 Kompetitive Basisfunktionen 13.7 Lernen mit Vektorquantisierung 13.8 Das MoE-Modell

13.8.1 Kooperative Experten 13.8.2 Kompetitive Experten

13.9 Hierarchische MoE und weiche Entscheidungsbäume 13.10 Anmerkungen 13.11 Übungen 13.12 Literaturangaben

14 Kernel-Maschinen

14.1 Einführung 14.2 Die optimal trennende Hyperebene 14.3 Der nicht trennbare Fall: Soft-Margin-Trennebenen 14.4 v-SVM 14.5 Kernel-Trick 14.6 Vektorielle Kernel 14.7 Definition von Kerneln 14.8 Multiple-Kernel-Lernen 14.9 Mehrklassen-Kernel-Maschinen 14.10 Kernel-Maschinen und Regression 14.11 Kernel-Maschinen und Ranking 14.12 Einklassen-Kernel-Maschinen 14.13 Breiter-Margin-Nächster-Nachbar-Klassifikator 14.14 Dimensionalitätsreduktion mit Kernel 14.15 Anmerkungen 14.16 Übungen 14.17 Literaturangaben

15 Graphenmodelle

15.1 Einführung 15.2 Kanonische Fälle für bedingte Unabhängigkeit

Fall 1: Spitze-Ende-Verbindung Fall 2: Ende-Ende-Verbindung Fall 3: Spitze-an-Spitze-Verbindung

15.3 Generative Modelle 15.4 d-Separation 15.5 Belief-Propagation

15.5.1 Ketten 15.5.2 Bäume 15.5.3 Mehrfachbäume 15.5.4 Verbindungsbäume

15.6 Ungerichtete Graphen: Markovsche Zufallsfelder 15.7 Lernen der Struktur eines Graphenmodells 15.8 Einflussdiagramme 15.9 Anmerkungen 15.10 Übungen 15.11 Literaturangaben

16 Hidden-Markov-Modelle

16.1 Einführung 16.2 Diskrete Markov-Prozesse 16.3 Hidden-Markov-Modelle 16.4 Drei Problemstellungen für HMMs 16.5 Evaluierungsproblem 16.6 Herausfinden der Zustandssequenz 16.7 Lernen von Modellparametern 16.8 Kontinuierliche Beobachtungen 16.9 Das HMM als Graphenmodell 16.10 Modellauswahl im HMM 16.11 Anmerkungen 16.12 Übungen 16.13 Literaturangaben

17 Bayessche Schätzung

17.1 Einführung 17.2 Bayessche Schätzung der Parameter diskreter Verteilungen

17.2.1 K > 2-Zustände: Dirichlet-Verteilung 17.2.2 K = 2-Zustände: Betaverteilung

17.3 Bayessche Schätzung der Parameter einer Gauß-Verteilung

17.3.1 Univariater Fall: Unbekannter Mittelwert, bekannte Varianz 17.3.2 Univariater Fall: Unbekannter Mittelwert, unbekannte Varianz 17.3.3 Multivariater Fall: Unbekannter Mittelwert, unbekannte Kovarianz

17.4 Bayessche Schätzung der Parameter einer Funktion

17.4.1 Regression 17.4.2 Regression mit Prior für die Präzision des Rauschens 17.4.3 Basis/Kernel-Funktionen 17.4.4 Bayessche Klassifikation

17.5 Wahl eines Priors 17.6 Bayesscher Modellvergleich 17.7 Bayessche Schätzung für ein Mischungsmodell 17.8 Nichtparametrische Bayessche Modelle 17.9 Gaußsche Prozesse 17.10 Dirichlet-Prozesse und Chinaestaurants 17.11 Latente Dirichlet-Allokation 17.12 Betaprozesse und indische Büffets 17.13 Anmerkungen 17.14 Übungen 17.15 Literaturangaben

18 Kombination mehrerer Lerner

18.1 Grundprinzip 18.2 Generierung diverser Lerner

Verschiedene Algorithmen Verschiedene Hyperparameter Verschiedene Repräsentationen der Eingabe Verschiedene Trainingsmengen Diversität vs. Genauigkeit

18.3 Methoden der Modellkombination 18.4 Voting 18.5 Fehlerkorrekturcodes 18.6 Bagging 18.7 Boosting 18.8 Neubetrachtung des MoE-Modells 18.9 Geschachtelte Generalisierung 18.10 Feinabstimmung eines Ensembles

18.10.1 Wahl einer Teilmenge des Ensembles 18.10.2 Konstruktion von Metalernern

18.11 Kaskadierung 18.12 Anmerkungen 18.13 Übungen 18.14 Literaturangaben

19 Bestärkendes Lernen

19.1 Einführung 19.2 Fälle mit einem Zustand: K-armiger Bandit 19.3 Elemente des bestärkenden Lernens 19.4 Modellbasiertes Lernen

19.4.1 Wertiteration 19.4.2 Taktikiteration

19.5 Lernen mit temporaler Differenz

19.5.1 Explorationsstrategien 19.5.2 Deterministische Belohnungen und Aktionen 19.5.3 Nichtdeterministische Belohnungen und Aktionen 19.5.4 Eignungsprotokolle

19.6 Generalisierung 19.7 Teilweise beobachtbare Zustände

19.7.1 Setting 19.7.2 Beispiel: Das Tigerproblem

19.8 Tiefes Q-Lernen 19.9 Taktikgradienten 19.10 Backgammon und Go 19.11 Anmerkungen 19.12 Übungen 19.13 Literaturangaben

20 Design und Analyse von Experimenten mit maschinellem Lernen

20.1 Einführung 20.2 Faktoren, Antwort und Strategie beim Experimentieren 20.3 Antwortflächenmethode 20.4 Randomisieren, Wiederholen und Blocken 20.5 Richtlinien für Experimente mit maschinellem Lernen

A. Zweck der Studie B. Auswahl der Antwortvariable C . Wahl der Faktoren und Einstellmöglichkeiten D. Design des Experiments E. Durchführung des Experiments F. Statistische Analyse der Daten G. Schlussfolgerungen und Empfehlungen

20.6 Kreuzvalidierung und Resampling-Methoden

20.6.1 K-fache Kreuzvalidierung 20.6.2 5 × 2-Kreuzvalidierung 20.6.3 Bootstrapping

20.7 Leistungsmessung für Klassifikatoren 20.8 Intervallschätzung 20.9 Hypothesenprüfung 20.10 Leistungsbewertung für Klassifikationsalgorithmen

20.10.1 Binomialtest 20.10.2 Test der approximierten Normalverteilung 20.10.3 t-Test

20.11 Vergleich von zwei Klassifikationsalgorithmen

20.11.1 Der McNemarsche Test 20.11.2 Gepaarter t-Test mit K-facher Kreuzvalidierung 20.11.3 Gepaarter t-Test mit 5 × 2 Kreuzvalidierung 20.11.4 Gepaarter F-Test mit 5 × 2 Kreuzvalidierung

20.12 Vergleich mehrerer Algorithmen: Varianzanalyse 20.13 Vergleich über mehrere Datensätze

20.13.1 Vergleich zweier Algorithmen 20.13.2 Vergleich mehrerer Algorithmen

20.14 Multivariate Tests

20.14.1 Vergleich zweier Algorithmen 20.14.2 Vergleich mehrerer Algorithmen

20.15 Anmerkungen 20.16 Übungen 20.17 Literaturangaben

A Wahrscheinlichkeit

A. 1 Elemente der Wahrscheinlichkeit

A. 1.1 Axiome der Wahrscheinlichkeit A. 1.2 Bedingte Wahrscheinlichkeit

A. 2 Zufallsvariablen

A. 2.1 Verteilungsfunktion und Wahrscheinlichkeitsdichte A. 2.2 Gemeinsame Verteilungsfunktion und gemeinsame Dichte A. 2.3 Bedingte Verteilungen A. 2.4 Satz von Bayes A. 2.5 Erwartungswert A. 2.6 Varianz A. 2.7 Das schwache Gesetz großer Zahlen

A. 3 Spezielle Verteilungen von Zufallsvariablen

A. 3.1 Bernoulli-Verteilung A. 3.2 Binomialverteilung A. 3.3 Multinomiale Verteilung A. 3.4 Gleichverteilung A. 3.5 Normalverteilung (Gauß-Verteilung) A. 3.6 Chi-Quadrat-Verteilung A. 3.7 t-Verteilung A. 3.8 F-Verteilung

A.4 Literaturangaben

B Lineare Algebra

B. 1 Vektoren B. 2 Matrizen B. 3 Ähnlichkeit zwischen Vektoren B. 4 Quadratische Matrizen B. 5 Lineare Abhängigkeit und Rang B. 6 Die inverse Matrix B. 7 Positiv definite Matrizen B. 8 Spur und Determinante B. 9 Eigenwerte und Eigenvektoren B. 10 Spektralzerlegung B. 11 Singulärwertzerlegung B.12 Literaturangaben

C Optimierung

C. 1 Einführung C. 2 Lineare Optimierung C. 3 Konvexe Optimierung C. 4 Dualität C. 5 Lokale Optimierung C.6 Literaturangaben

Index

Notes

← Prev
Back
Next →

← Prev
Back
Next →