Log In
Or create an account ->
Imperial Library
Home
About
News
Upload
Forum
Help
Login/SignUp
Index
Cover
Titel
Impressum
Inhalt
Vorwort
Einführung
1 Hallo Transformer
Das Encoder-Decoder-Framework
Der Attention-Mechanismus
Einsatz von Transfer Learning im NLP
Die Transformers-Bibliothek von Hugging Face: die Lücke schließen
Die Anwendungsmöglichkeiten von Transformern im Überblick
Textklassifizierung
Named Entity Recognition
Question Answering
Automatische Textzusammenfassung (Summarization)
Maschinelle Übersetzung (Translation)
Textgenerierung
Das Ökosystem von Hugging Face
Der Hugging Face Hub
Die Tokenizers-Bibliothek von Hugging Face
Die Datasets-Bibliothek von Hugging Face
Die Accelerate-Bibliothek von Hugging Face
Die größten Herausforderungen im Zusammenhang mit Transformer-Modellen
Zusammenfassung
2 Textklassifizierung
Der Datensatz
Ein erster Blick auf die Datasets-Bibliothek von Hugging Face
Dataset-Objekte in DataFrames überführen
Ein Blick auf die Verteilung der Kategorien
Wie lang sind unsere Tweets?
Vom Text zu Tokens
Tokenisierung auf der Ebene von Zeichen (Character Tokenization)
Tokenisierung auf der Ebene von Wörtern (Word Tokenization)
Tokenisierung auf der Ebene von Teilwörtern (Subword Tokenization)
Den gesamten Datensatz tokenisieren
Trainieren eines Textklassifikators
Transformer-Modelle als Feature-Extraktoren
Feintuning von Transformer-Modellen
Zusammenfassung
3 Die Anatomie von Transformer-Modellen
Die Transformer-Architektur
Der Encoder
Self-Attention
Die Feed-Forward-Schicht
Layer Normalization integrieren
Positional-Embeddings
Einen Head zur Klassifizierung hinzufügen
Der Decoder
Transformer-Modelle im Überblick
Die drei Entwicklungsstränge von Transformer-Modellen
Rein Encoder-basierte Transformer-Modelle
Rein Decoder-basierte Transformer-Modelle
Encoder-Decoder-basierte Transformer-Modelle
Zusammenfassung
4 Multilinguale Named Entity Recognition
Der Datensatz
Multilinguale Transformer-Modelle
Ein genauerer Blick auf die Tokenisierung
Die Tokenizer-Pipeline
Der SentencePiece-Tokenizer
Transformer-Modelle für die Named Entity Recognition
Der Aufbau der Model-Klasse der Transformers-Bibliothek
Bodies und Heads
Ein selbst definiertes Modell zur Klassifizierung von Tokens erstellen
Ein selbst definiertes Modell laden
Tokenisierung von Texten für die Named Entity Recognition
Qualitätsmaße
Feintuning eines XLM-RoBERTa-Modells
Fehleranalyse
Sprachenübergreifender Transfer
Wann ist ein Zero-Shot-Transfer sinnvoll?
Modelle für mehrere Sprachen gleichzeitig feintunen
Interaktion mit den Modell-Widgets
Zusammenfassung
5 Textgenerierung
Die Herausforderungen bei der Generierung von kohärenten Texten
Greedy-Search-Decodierung
Beam-Search-Decodierung
Sampling-Verfahren
Top-k- und Nucleus-Sampling
Welcher Ansatz zur Decodierung ist der beste?
Zusammenfassung
6 Automatische Textzusammenfassung (Summarization)
Der CNN/DailyMail-Datensatz
Pipelines für die automatische Textzusammenfassung
Ein einfacher Ansatz zur Textzusammenfassung
GPT-2
T5
BART
PEGASUS
Verschiedene Zusammenfassungen vergleichen
Evaluierung der Qualität von generierten Texten
BLEU
ROUGE
Evaluierung des PEGASUS-Modells auf dem CNN/DailyMail-Datensatz
Trainieren eines Modells zur Generierung von Zusammenfassungen
Das PEGASUS-Modell auf dem SAMSum-Datensatz evaluieren
Das PEGASUS-Modell feintunen
Zusammenfassungen von Dialogen erstellen
Zusammenfassung
7 Question Answering
Aufbau eines rezensionsbasierten QA-Systems
Der Datensatz
Antworten aus einem Text extrahieren
Die Haystack-Bibliothek zum Aufbau einer QA-Pipeline verwenden
Verbesserung unserer QA-Pipeline
Den Retriever evaluieren
Den Reader evaluieren
Domain Adaptation
Die gesamte QA-Pipeline evaluieren
Jenseits des extraktiven QA
Zusammenfassung
8 Effizientere Transformer-Modelle für die Produktion
Die Intentionserkennung als Fallstudie
Eine Benchmark-Klasse zur Beurteilung der Performance erstellen
Verkleinerung von Modellen mithilfe der Knowledge Distillation
Knowledge Distillation im Rahmen des Feintunings
Knowledge Distillation im Rahmen des Pretrainings
Eine Trainer-Klasse für die Knowledge Distillation erstellen
Ein geeignetes Modell als Ausgangspunkt für das Schüler-Modell wählen
Geeignete Hyperparameter mit Optuna finden
Unser destilliertes Modell im Vergleich
Beschleunigung von Modellen mithilfe der Quantisierung
Das quantisierte Modell im Vergleich
Optimierung der Inferenz mit ONNX und der ONNX Runtime
Erhöhung der Sparsität von Modellen mithilfe von Weight Pruning
Sparsität tiefer neuronaler Netze
Weight-Pruning-Methoden
Zusammenfassung
9 Ansätze bei wenigen bis keinen Labels
Erstellung eines GitHub-Issues-Tagger
Die Daten beschaffen
Die Daten vorbereiten
Trainingsdatensätze erstellen
Unterschiedlich große Trainingsdatensätze erstellen
Implementierung eines naiven Bayes-Klassifikators als Baseline
Ansätze, wenn keine gelabelten Daten vorliegen
Ansätze, wenn nur wenige gelabelte Daten zur Verfügung stehen
Datenaugmentierung
Embeddings als Nachschlagetabelle verwenden
Ein standardmäßiges Transformer-Modell feintunen
In-Context- und Few-Shot-Learning auf Basis von Prompts
Ungelabelte Daten nutzbar machen
Ein Sprachmodell feintunen
Einen Klassifikator feintunen
Fortgeschrittene Methoden
Zusammenfassung
10 Transformer-Modelle von Grund auf trainieren
Große Datensätze und wie sie beschafft werden können
Herausforderungen beim Aufbau eines großen Korpus
Einen eigenen Codedatensatz erstellen
Mit großen Datensätzen arbeiten
Datensätze zum Hugging Face Hub hinzufügen
Erstellung eines Tokenizers
Das Tokenizer-Modell
Die Leistung eines Tokenizers beurteilen
Ein Tokenizer für die Programmiersprache Python
Einen Tokenizer trainieren
Einen selbst erstellten Tokenizer auf dem Hub speichern
Ein Modell von Grund auf trainieren
Verschiedene Pretraining-Objectives im Überblick
Das Modell initialisieren
Den Dataloader implementieren
Die Trainingsschleife einrichten
Der Trainingslauf
Ergebnisse und Analyse
Zusammenfassung
11 Künftige Herausforderungen
Skalierung von Transformer-Modellen
Skalierungsgesetze
Herausforderungen bei der Skalierung
Attention Please! – Den Attention-Mechanismus effizienter gestalten
Sparse-Attention
Linearisierte Attention
Jenseits von Textdaten
Computer Vision
Tabellen
Multimodale Transformer
Speech-to-Text
Computer Vision und Text
Wie geht es weiter?
Fußnoten
Index
Über den Autor
Kolophon
← Prev
Back
Next →
← Prev
Back
Next →