[Für Dummies 01] • Data Science mit Python für Dummies by Mueller, John Paul -- Read -- Imperial Library of Trantor

Index

Cover Schummelseite Titelei Inhaltsverzeichnis Über die Autoren Luca Massarons Widmung John Muellers Widmung Luca Massarons Danksagung John Muellers Danksagung Einleitung

Über dieses Buch Törichte Annahmen Im Buch verwendete Symbole Über das Buch hinaus Wie es weitergeht

Teil I Erste Schritte mit Python für Data Science

1 Wie Data Science und Python zusammenpassen

Die Definition des geilsten Jobs des 21. Jahrhunderts

Die Entstehung von Data Science Umriss der Kernkompetenzen eines Data Scientists Die Verbindung von Data Science und Big Data Das Verständnis der Rolle der Programmierung

Die Entwicklung einer Data-Science-Pipeline

Vorbereitung der Daten Darstellung der beschreibenden Datenanalyse Von den Daten lernen Visualisierung Erkenntnisse und Ergebnisse

Die Rolle von Python in Data Science

Das sich wandelnde Profil eines Data Scientists Die Arbeit mit einer vielseitigen, einfachen und effizienten Sprache

Der schnelle Einstieg in Python

Daten laden Ein Modell ableiten Anzeige eines Ergebnisses

2 Einführung in Pythons Fähigkeiten und Möglichkeiten

Warum Python?

Verständnis der Kernphilosophie Pythons Gegenwärtige und zukünftige Entwicklungsziele entdecken

Arbeiten mit Python

Ein Vorgeschmack auf die Sprache Die Notwendigkeit von Einrückungen verstehen Arbeiten mit der Kommandozeile oder IDE

Schnelles Prototyping und Experimentieren Die Geschwindigkeit der Ausführung Die Kraft der Visualisierung Das Python-Ökosystem für Data Science

Mit SciPy auf wissenschaftliche Werkzeuge zugreifen Grundlagen des wissenschaftlichen Rechnens mit NumPy Datenanalyse mit Pandas Implementierung des maschinellen Lernens mit Scikit-learn Plotten mit MatPlotLib Syntaxanalyse von HTML-Dokumenten mit Beautiful Soup

3 Einrichtung von Python für Data Science

Betrachtung der üblichen wissenschaftlichen Distributionen

Continuum Analytics Anaconda Enthought Canopy Express Pythonxy WinPython

Installation von Anaconda auf Windows Installation von Anaconda auf Linux Installation von Anaconda auf Mac OS X Download der Datensätze und des Beispielcodes

Die Nutzung von IPython Notebook Festlegung des Code-Archivs Verständnis der in diesem Buch verwendeten Datensätze

4 Die Grundlagen von Python

Arbeiten mit Zahlen und Logik

Zuordnung von Variablen Arithmetik Vergleichen von Daten mit booleschen Ausdrücken

Erstellung und Nutzung von Zeichenketten Interaktionen mit einer Zeitangabe Erstellung und Verwendung von Funktionen

Entwicklung wiederverwendbarer Funktionen Der Aufruf einer Funktion auf unterschiedliche Arten

Verwendung von bedingten und iterativen Anweisungen

Entscheidungsfindung mit der if-Anweisung Die Wahl zwischen mehreren Optionen mit verschachtelten Entscheidungen Ausführung sich wiederholender Aufgaben mit dem for-Kommando Verwendung der while-Anweisung

Daten mit Mengen, Listen und Tupeln speichern

Operationen mit Mengen Die Arbeit mit Listen Erstellung und Verwendung von Tupeln

Definition nützlicher Iteratoren Indizierung von Daten mit Dictionaries

Teil II Mit Daten arbeiten

5 Arbeiten mit richtigen Daten

Upload, Streaming und Auswahl von Daten

Laden kleiner Datenmengen in den Speicher Laden großer Datenmengen in den Speicher Auswahl von Daten

Daten in strukturierter Flatfile-Form

Aus einer Textdatei lesen Lesen des CSV-Formats Lesen von Excel- oder anderen Microsoft-Dateien

Laden von Daten aus unstrukturierten Dateien Verwaltung von Daten aus relationalen Datenbanken Interaktion mit Daten einer NoSQL-Datenbank Verwendung von Daten aus dem Internet

6 Konditionierung der Daten

Zwischen NumPy und Pandas hin- und herjonglieren

Wann man NumPy verwendet Wann man Pandas verwendet

Validierung der Daten

Herausfinden, was in Ihren Daten steckt Duplikate entfernen Erstellung einer Datenkarte und eines Datenplans

Manipulation kategorialer Variablen

Erstellung kategorialer Variablen Umbenennen der Ebenen Die Kombination von Ebenen

Der Umgang mit Zeitangaben in Ihren Daten

Formatierung von Datums- und Zeitangaben Die richtige Zeittransformation

Umgang mit fehlenden Daten

Fehlende Daten finden Codierung fehlender Daten Einspeisung fehlender Daten

Schneiden und Vereinzeln: Filtern und Auswählen von Daten

Zeilen schneiden Spalten schneiden Vereinzelung

Verkettung und Transformation

Neue Fälle und Variablen hinzufügen Entfernen von Daten Sortieren und Mischen

Aggregation von Daten auf einer Ebene

7 Daten in Form bringen

Arbeiten mit HTML-Seiten

Parsen von XML und HTML Benutzung von XPath für die Extraktion von Daten

Die Arbeit mit reinem Text

Die Arbeit mit Unicode Stemming und Entfernen von Stoppwörtern Einführung in reguläre Ausdrücke

Verwendung des Bag-of-Words-Modells und anderer Modelle

Funktionsweise des Bag-of-Words-Modells Arbeiten mit N-Grammen Implementierung von TF-IDF Transformationen

Arbeiten mit Graphdaten

Die Adjazenzmatrix Grundlagen in NetworkX

8 Das, was Sie schon wissen, in die Tat umsetzen

Kontextualisierung von Problemen und Daten

Auswertung eines Data-Science-Problems Erforschung von Lösungen Formulierung einer Hypothese Vorbereitung Ihrer Daten

Betrachtung der Erstellung von Merkmalen

Definition der Merkmalserstellung Kombination von Variablen Klasseneinteilung und Diskretisierung Verwendung von Indikatorvariablen Umwandlung von Verteilungen

Operationen mit Arrays

Vektorisierung Einfache Arithmetik mit Vektoren und Matrizen Matrix-Vektor-Multiplikation Matrix-Multiplikation

Teil III Visualisierung des Unsichtbaren

9 Ein Crashkurs in MatPlotLib

Mit einem Graphen beginnen

Definition eines Plots Zeichnen mehrerer Linien und Plots Speichern Sie Ihre Arbeit

Einstellen der Achsen, Intervalle und Gitternetzlinien

Die Achsen Formatierung der Achsen Hinzufügen von Gitternetzen

Das Erscheinungsbild von Linien festlegen

Die Arbeit mit Linienstilen Verwendung von Farben Marker hinzufügen

Labels, Anmerkungen und Legenden

Hinzufügen von Labels Hinzufügen von Anmerkungen zum Diagramm Erstellen einer Legende

10 Visualisierung von Daten

Die Wahl der richtigen Grafik

Darstellung von Teilen eines Ganzen mit Kreisdiagrammen Darstellung von Vergleichen mit Balkendiagrammen Darstellung von Vergleichen mit Histogrammen Darstellung von Gruppen mit Boxplots Sehen von Datenmustern mit Streudigrammen

Erstellung erweiterter Streudiagramme

Darstellung von Gruppen Darstellung von Korrelationen

Plotten von Zeitreihen

Abbildung der Zeit auf den Achsen Plotten von Trends über einen bestimmten Zeitraum

Plotten geografischer Daten Visualisierung mit Graphen

Erstellung ungerichteter Graphen Erstellung gerichteter Graphen

11 Die Tools verstehen

Arbeiten mit der IPython-Konsole

Arbeiten mit Bildschirmtext Wechseln der Fensteranzeige Die Python-Hilfe Die IPython-Hilfe Nutzung der magischen Funktionen Objekte untersuchen

Das IPython Notebook

Arbeiten mit Formatvorlagen Neustarten des Kernels Wiederherstellung eines Checkpoints

Multimedia- und Grafikintegration

Einbetten von Plots und anderen Bildern Laden von Beispielen aus Webseiten Erhalt von Online-Grafiken und Multimedia

Teil IV Daten handhabbar machen

12 Pythons Möglichkeiten erweitern

Mit Scikit-learn spielen

Klassen in Scikit-learn verstehen Anwendungen für Data Science erkennen

Den Hashing-Trick durchführen

Hash-Funktionen nutzen Hash-Tricks demonstrieren Mit deterministischer Selektion arbeiten

Zeit und Performance berücksichtigen

Benchmarking mit timeit Mit dem Speicher-Profiler arbeiten

Parallele Verarbeitung

Mehrkern-Verarbeitung durchführen Mehrkern-Verarbeitung demonstrieren

13 Datenanalyse erforschen

Der EDA-Ansatz Beschreibende Statistik für numerische Daten

Lagemaße bestimmen Messung von Varianz und Spannweite Arbeiten mit Perzentilen Normalitätsmaße

Zählen von kategorialen Daten

Häufigkeiten verstehen Kontingenztafeln erstellen

Angewandte Visualisierung für EDA

Boxplots untersuchen T-Test nach dem Boxplot durchführen Parallele Koordinaten beobachten Grafische Darstellung von Verteilungen Streudiagramme zeichnen

Korrelation verstehen

Kovarianz und Korrelation nutzen Nichtparametrische Korrelation nutzen Chi-Quadrat für Tabellen betrachten

Datenverteilungen modifizieren

Die Normalverteilung nutzen Eine Z-Score-Standardisierung erstellen Andere beachtenswerte Verteilungen transformieren

14 Dimensionalität verringern

SVD verstehen

Auf der Suche nach Dimensionalitätsverringerung SVD nutzen, um das Unsichtbare zu messen

Faktor- und Hauptkomponentenanalyse durchführen

Das psychometrische Modell berücksichtigen Nach versteckten Faktoren suchen Komponenten nutzen, nicht Faktoren Dimensionalitätsverringerung erreichen

Einige Anwendungen verstehen

Gesichter erkennen mit PCA Themen mit NMF extrahieren Filme empfehlen

15 Clustering

Mit K-means clustern

K-means-Algorithmen verstehen Ein Beispiel mit Bilddaten Nach optimalen Lösungen suchen Big Data clustern

Hierarchisches Clustering durchführen Jenseits von runden Clustern: DBScan

16 Ausreißer in Daten aufspüren

Das Aufspüren von Ausreißern in Betracht ziehen

Weitere Dinge finden, die schiefgehen können Anomalien bei neuen Daten verstehen

Eine einfache univariate Methode untersuchen

Auf die Gauß-Verteilung zählen Annahmen machen und überprüfen

Einen multivariaten Ansatz entwickeln

Hauptkomponentenanalyse nutzen Cluster-Analyse nutzen Ausreißer mit SVM automatisch erkennen

Teil V Aus Daten lernen

17 Vier einfache und effektive Algorithmen erkunden

Die Zahl schätzen: Lineare Regression

Die Familie der linearen Modelle definieren Mehr Variablen nutzen Limitierungen und Probleme verstehen

Zur logistischen Regression wechseln

Logistische Regression anwenden Betrachtung, wenn es mehrere Klassen sind

Die Dinge einfach machen – Naiver Bayes

Herausfinden, dass naiver Bayes nicht so naiv ist Textklassifizierungen vorhersagen

Faul lernen mit der Nearest-Neighbors-Methode

Vorhersagen nach der Beobachtung von Nachbarn Wählen Sie Ihren k-Parameter geschickt

18 Kreuzvalidierung, Selektion und Optimierung durchführen

Über das Problem der Anpassung eines Modells nachdenken

Trend und Varianz verstehen Eine Strategie zur Modellauswahl definieren Zwischen Trainings- und Testsatz trennen

Kreuzvalidierung

Kreuzvalidierung auf k Teilmengen anwenden Probenschichtung für komplexe Daten

Variablen wie ein Profi auswählen

Durch univariate Maße selektieren Eine Greedy-Suche nutzen

Ihre Hyperparameter aufbessern

Eine Rastersuche implementieren Eine Zufallssuche versuchen

19 Steigerung der Komplexität mit linearen und nichtlinearen Tricks

Nichtlineare Transformationen nutzen

Variablentransformation ausüben Interaktionen zwischen Variablen erstellen

Lineare Modelle regularisieren

Sich auf die Kamm-Regression (L2) verlassen Das Lasso (L1) nutzen Nutzung der Regularisierung Elasticnet: L1 & L2 kombinieren

Kampf mit Big Data Stück für Stück

Bestimmen, ob es zu viele Daten sind Implementierung des stochastischen Gradientenabstiegs

Support Vector Machines verstehen

Auf ein Berechnungsverfahren verlassen Viele neue Parameter festlegen Mit SVC klassifizieren Nichtlinear arbeiten ist einfach Regression mittels SVR ausführen Stochastische Lösungen mit einer SVM erstellen

20 Die Macht der Vielen verstehen

Mit einfachen Entscheidungsbäumen anfangen

Einen Entscheidungsbaum verstehen Klassifikations- und Regressionsbäume erstellen

Maschinelles Lernen zugänglich machen

Mit einem Random Forest Classifier arbeiten Mit einem Random-Forest-Regressor arbeiten Einen Random Forest optimieren

Vorhersagen stärken

Wissen, dass viele schwache Prädiktoren gewinnen Einen Gradient-Boosting-Klassifikator erstellen Einen Gradient-Boosting-Regressor erstellen GBM-Hyperparameter nutzen

Teil VI Der Top-Ten-Teil

21 Zehn wichtige Data-Science-Ressourcensammlungen

Einblicke mit Data Science Weekly erhalten Eine Ressourcenliste bei U-Climb-Higher erhalten Einen guten Start mit KDnuggets Auf die lange Liste von Ressourcen auf Data-Science-Central zugreifen Die Fakten über Open-Source-Data-Science von Meistern erhalten Gratis-Lernressourcen mit Quora aufspüren Hilfe zu fortgeschrittenen Themen auf Conductrics erhalten Neue Tricks vom Aspirational Data Scientist lernen Data-Intelligence- und Analytics-Quellen auf AnalyticBridge finden Mit Jonathan Bower die Ressourcen der Entwickler entdecken

22 Zehn Datenherausforderungen, die Sie annehmen sollten

Der Data-Science-London + Scikit-learn-Herausforderung begegnen Das Überleben auf der Titanic vorhersagen Einen Kaggle-Wettbewerb finden, der Ihren Bedürfnissen entspricht An Ihren Überanpassungsstrategien feilen Durch den MovieLens-Datensatz gehen Spam-E-Mails loswerden Mit handgeschriebenen Informationen arbeiten Mit Bildern arbeiten Amazon.com-Reviews analysieren Mit einem riesigen Graphen interagieren

Stichwortverzeichnis End User License Agreement

← Prev
Back
Next →

← Prev
Back
Next →