Natural Language Processing mit Transformern by Tunstall, Lewis -- Read -- Imperial Library of Trantor

Index

Cover Titel Impressum Inhalt Vorwort Einführung 1 Hallo Transformer

Das Encoder-Decoder-Framework Der Attention-Mechanismus Einsatz von Transfer Learning im NLP Die Transformers-Bibliothek von Hugging Face: die Lücke schließen Die Anwendungsmöglichkeiten von Transformern im Überblick

Textklassifizierung Named Entity Recognition Question Answering Automatische Textzusammenfassung (Summarization) Maschinelle Übersetzung (Translation) Textgenerierung

Das Ökosystem von Hugging Face

Der Hugging Face Hub Die Tokenizers-Bibliothek von Hugging Face Die Datasets-Bibliothek von Hugging Face Die Accelerate-Bibliothek von Hugging Face

Die größten Herausforderungen im Zusammenhang mit Transformer-Modellen Zusammenfassung

2 Textklassifizierung

Der Datensatz

Ein erster Blick auf die Datasets-Bibliothek von Hugging Face Dataset-Objekte in DataFrames überführen Ein Blick auf die Verteilung der Kategorien Wie lang sind unsere Tweets?

Vom Text zu Tokens

Tokenisierung auf der Ebene von Zeichen (Character Tokenization) Tokenisierung auf der Ebene von Wörtern (Word Tokenization) Tokenisierung auf der Ebene von Teilwörtern (Subword Tokenization) Den gesamten Datensatz tokenisieren

Trainieren eines Textklassifikators

Transformer-Modelle als Feature-Extraktoren Feintuning von Transformer-Modellen

Zusammenfassung

3 Die Anatomie von Transformer-Modellen

Die Transformer-Architektur Der Encoder

Self-Attention Die Feed-Forward-Schicht Layer Normalization integrieren Positional-Embeddings Einen Head zur Klassifizierung hinzufügen

Der Decoder Transformer-Modelle im Überblick

Die drei Entwicklungsstränge von Transformer-Modellen Rein Encoder-basierte Transformer-Modelle Rein Decoder-basierte Transformer-Modelle Encoder-Decoder-basierte Transformer-Modelle

Zusammenfassung

4 Multilinguale Named Entity Recognition

Der Datensatz Multilinguale Transformer-Modelle Ein genauerer Blick auf die Tokenisierung

Die Tokenizer-Pipeline Der SentencePiece-Tokenizer

Transformer-Modelle für die Named Entity Recognition Der Aufbau der Model-Klasse der Transformers-Bibliothek

Bodies und Heads Ein selbst definiertes Modell zur Klassifizierung von Tokens erstellen Ein selbst definiertes Modell laden

Tokenisierung von Texten für die Named Entity Recognition Qualitätsmaße Feintuning eines XLM-RoBERTa-Modells Fehleranalyse Sprachenübergreifender Transfer

Wann ist ein Zero-Shot-Transfer sinnvoll? Modelle für mehrere Sprachen gleichzeitig feintunen

Interaktion mit den Modell-Widgets Zusammenfassung

5 Textgenerierung

Die Herausforderungen bei der Generierung von kohärenten Texten Greedy-Search-Decodierung Beam-Search-Decodierung Sampling-Verfahren Top-k- und Nucleus-Sampling Welcher Ansatz zur Decodierung ist der beste? Zusammenfassung

6 Automatische Textzusammenfassung (Summarization)

Der CNN/DailyMail-Datensatz Pipelines für die automatische Textzusammenfassung

Ein einfacher Ansatz zur Textzusammenfassung GPT-2 T5 BART PEGASUS

Verschiedene Zusammenfassungen vergleichen Evaluierung der Qualität von generierten Texten

BLEU ROUGE

Evaluierung des PEGASUS-Modells auf dem CNN/DailyMail-Datensatz Trainieren eines Modells zur Generierung von Zusammenfassungen

Das PEGASUS-Modell auf dem SAMSum-Datensatz evaluieren Das PEGASUS-Modell feintunen Zusammenfassungen von Dialogen erstellen

Zusammenfassung

7 Question Answering

Aufbau eines rezensionsbasierten QA-Systems

Der Datensatz Antworten aus einem Text extrahieren Die Haystack-Bibliothek zum Aufbau einer QA-Pipeline verwenden

Verbesserung unserer QA-Pipeline

Den Retriever evaluieren Den Reader evaluieren Domain Adaptation Die gesamte QA-Pipeline evaluieren

Jenseits des extraktiven QA Zusammenfassung

8 Effizientere Transformer-Modelle für die Produktion

Die Intentionserkennung als Fallstudie Eine Benchmark-Klasse zur Beurteilung der Performance erstellen Verkleinerung von Modellen mithilfe der Knowledge Distillation

Knowledge Distillation im Rahmen des Feintunings Knowledge Distillation im Rahmen des Pretrainings Eine Trainer-Klasse für die Knowledge Distillation erstellen Ein geeignetes Modell als Ausgangspunkt für das Schüler-Modell wählen Geeignete Hyperparameter mit Optuna finden Unser destilliertes Modell im Vergleich

Beschleunigung von Modellen mithilfe der Quantisierung Das quantisierte Modell im Vergleich Optimierung der Inferenz mit ONNX und der ONNX Runtime Erhöhung der Sparsität von Modellen mithilfe von Weight Pruning

Sparsität tiefer neuronaler Netze Weight-Pruning-Methoden

Zusammenfassung

9 Ansätze bei wenigen bis keinen Labels

Erstellung eines GitHub-Issues-Tagger

Die Daten beschaffen Die Daten vorbereiten Trainingsdatensätze erstellen Unterschiedlich große Trainingsdatensätze erstellen

Implementierung eines naiven Bayes-Klassifikators als Baseline Ansätze, wenn keine gelabelten Daten vorliegen Ansätze, wenn nur wenige gelabelte Daten zur Verfügung stehen

Datenaugmentierung Embeddings als Nachschlagetabelle verwenden Ein standardmäßiges Transformer-Modell feintunen In-Context- und Few-Shot-Learning auf Basis von Prompts

Ungelabelte Daten nutzbar machen

Ein Sprachmodell feintunen Einen Klassifikator feintunen Fortgeschrittene Methoden

Zusammenfassung

10 Transformer-Modelle von Grund auf trainieren

Große Datensätze und wie sie beschafft werden können

Herausforderungen beim Aufbau eines großen Korpus Einen eigenen Codedatensatz erstellen Mit großen Datensätzen arbeiten Datensätze zum Hugging Face Hub hinzufügen

Erstellung eines Tokenizers

Das Tokenizer-Modell Die Leistung eines Tokenizers beurteilen Ein Tokenizer für die Programmiersprache Python Einen Tokenizer trainieren Einen selbst erstellten Tokenizer auf dem Hub speichern

Ein Modell von Grund auf trainieren

Verschiedene Pretraining-Objectives im Überblick Das Modell initialisieren Den Dataloader implementieren Die Trainingsschleife einrichten Der Trainingslauf

Ergebnisse und Analyse Zusammenfassung

11 Künftige Herausforderungen

Skalierung von Transformer-Modellen

Skalierungsgesetze Herausforderungen bei der Skalierung Attention Please! – Den Attention-Mechanismus effizienter gestalten Sparse-Attention Linearisierte Attention

Jenseits von Textdaten

Computer Vision Tabellen

Multimodale Transformer

Speech-to-Text Computer Vision und Text

Wie geht es weiter?

Fußnoten Index Über den Autor Kolophon

← Prev
Back
Next →

← Prev
Back
Next →