Log In
Or create an account ->
Imperial Library
Home
About
News
Upload
Forum
Help
Login/SignUp
Index
Cover
Schummelseite
Titelei
Inhaltsverzeichnis
Über die Autoren
Luca Massarons Widmung
John Muellers Widmung
Luca Massarons Danksagung
John Muellers Danksagung
Einleitung
Über dieses Buch
Törichte Annahmen
Im Buch verwendete Symbole
Über das Buch hinaus
Wie es weitergeht
Teil I Erste Schritte mit Python für Data Science
1 Wie Data Science und Python zusammenpassen
Die Definition des geilsten Jobs des 21. Jahrhunderts
Die Entstehung von Data Science
Umriss der Kernkompetenzen eines Data Scientists
Die Verbindung von Data Science und Big Data
Das Verständnis der Rolle der Programmierung
Die Entwicklung einer Data-Science-Pipeline
Vorbereitung der Daten
Darstellung der beschreibenden Datenanalyse
Von den Daten lernen
Visualisierung
Erkenntnisse und Ergebnisse
Die Rolle von Python in Data Science
Das sich wandelnde Profil eines Data Scientists
Die Arbeit mit einer vielseitigen, einfachen und effizienten Sprache
Der schnelle Einstieg in Python
Daten laden
Ein Modell ableiten
Anzeige eines Ergebnisses
2 Einführung in Pythons Fähigkeiten und Möglichkeiten
Warum Python?
Verständnis der Kernphilosophie Pythons
Gegenwärtige und zukünftige Entwicklungsziele entdecken
Arbeiten mit Python
Ein Vorgeschmack auf die Sprache
Die Notwendigkeit von Einrückungen verstehen
Arbeiten mit der Kommandozeile oder IDE
Schnelles Prototyping und Experimentieren
Die Geschwindigkeit der Ausführung
Die Kraft der Visualisierung
Das Python-Ökosystem für Data Science
Mit SciPy auf wissenschaftliche Werkzeuge zugreifen
Grundlagen des wissenschaftlichen Rechnens mit NumPy
Datenanalyse mit Pandas
Implementierung des maschinellen Lernens mit Scikit-learn
Plotten mit MatPlotLib
Syntaxanalyse von HTML-Dokumenten mit Beautiful Soup
3 Einrichtung von Python für Data Science
Betrachtung der üblichen wissenschaftlichen Distributionen
Continuum Analytics Anaconda
Enthought Canopy Express
Pythonxy
WinPython
Installation von Anaconda auf Windows
Installation von Anaconda auf Linux
Installation von Anaconda auf Mac OS X
Download der Datensätze und des Beispielcodes
Die Nutzung von IPython Notebook
Festlegung des Code-Archivs
Verständnis der in diesem Buch verwendeten Datensätze
4 Die Grundlagen von Python
Arbeiten mit Zahlen und Logik
Zuordnung von Variablen
Arithmetik
Vergleichen von Daten mit booleschen Ausdrücken
Erstellung und Nutzung von Zeichenketten
Interaktionen mit einer Zeitangabe
Erstellung und Verwendung von Funktionen
Entwicklung wiederverwendbarer Funktionen
Der Aufruf einer Funktion auf unterschiedliche Arten
Verwendung von bedingten und iterativen Anweisungen
Entscheidungsfindung mit der if-Anweisung
Die Wahl zwischen mehreren Optionen mit verschachtelten Entscheidungen
Ausführung sich wiederholender Aufgaben mit dem for-Kommando
Verwendung der while-Anweisung
Daten mit Mengen, Listen und Tupeln speichern
Operationen mit Mengen
Die Arbeit mit Listen
Erstellung und Verwendung von Tupeln
Definition nützlicher Iteratoren
Indizierung von Daten mit Dictionaries
Teil II Mit Daten arbeiten
5 Arbeiten mit richtigen Daten
Upload, Streaming und Auswahl von Daten
Laden kleiner Datenmengen in den Speicher
Laden großer Datenmengen in den Speicher
Auswahl von Daten
Daten in strukturierter Flatfile-Form
Aus einer Textdatei lesen
Lesen des CSV-Formats
Lesen von Excel- oder anderen Microsoft-Dateien
Laden von Daten aus unstrukturierten Dateien
Verwaltung von Daten aus relationalen Datenbanken
Interaktion mit Daten einer NoSQL-Datenbank
Verwendung von Daten aus dem Internet
6 Konditionierung der Daten
Zwischen NumPy und Pandas hin- und herjonglieren
Wann man NumPy verwendet
Wann man Pandas verwendet
Validierung der Daten
Herausfinden, was in Ihren Daten steckt
Duplikate entfernen
Erstellung einer Datenkarte und eines Datenplans
Manipulation kategorialer Variablen
Erstellung kategorialer Variablen
Umbenennen der Ebenen
Die Kombination von Ebenen
Der Umgang mit Zeitangaben in Ihren Daten
Formatierung von Datums- und Zeitangaben
Die richtige Zeittransformation
Umgang mit fehlenden Daten
Fehlende Daten finden
Codierung fehlender Daten
Einspeisung fehlender Daten
Schneiden und Vereinzeln: Filtern und Auswählen von Daten
Zeilen schneiden
Spalten schneiden
Vereinzelung
Verkettung und Transformation
Neue Fälle und Variablen hinzufügen
Entfernen von Daten
Sortieren und Mischen
Aggregation von Daten auf einer Ebene
7 Daten in Form bringen
Arbeiten mit HTML-Seiten
Parsen von XML und HTML
Benutzung von XPath für die Extraktion von Daten
Die Arbeit mit reinem Text
Die Arbeit mit Unicode
Stemming und Entfernen von Stoppwörtern
Einführung in reguläre Ausdrücke
Verwendung des Bag-of-Words-Modells und anderer Modelle
Funktionsweise des Bag-of-Words-Modells
Arbeiten mit N-Grammen
Implementierung von TF-IDF Transformationen
Arbeiten mit Graphdaten
Die Adjazenzmatrix
Grundlagen in NetworkX
8 Das, was Sie schon wissen, in die Tat umsetzen
Kontextualisierung von Problemen und Daten
Auswertung eines Data-Science-Problems
Erforschung von Lösungen
Formulierung einer Hypothese
Vorbereitung Ihrer Daten
Betrachtung der Erstellung von Merkmalen
Definition der Merkmalserstellung
Kombination von Variablen
Klasseneinteilung und Diskretisierung
Verwendung von Indikatorvariablen
Umwandlung von Verteilungen
Operationen mit Arrays
Vektorisierung
Einfache Arithmetik mit Vektoren und Matrizen
Matrix-Vektor-Multiplikation
Matrix-Multiplikation
Teil III Visualisierung des Unsichtbaren
9 Ein Crashkurs in MatPlotLib
Mit einem Graphen beginnen
Definition eines Plots
Zeichnen mehrerer Linien und Plots
Speichern Sie Ihre Arbeit
Einstellen der Achsen, Intervalle und Gitternetzlinien
Die Achsen
Formatierung der Achsen
Hinzufügen von Gitternetzen
Das Erscheinungsbild von Linien festlegen
Die Arbeit mit Linienstilen
Verwendung von Farben
Marker hinzufügen
Labels, Anmerkungen und Legenden
Hinzufügen von Labels
Hinzufügen von Anmerkungen zum Diagramm
Erstellen einer Legende
10 Visualisierung von Daten
Die Wahl der richtigen Grafik
Darstellung von Teilen eines Ganzen mit Kreisdiagrammen
Darstellung von Vergleichen mit Balkendiagrammen
Darstellung von Vergleichen mit Histogrammen
Darstellung von Gruppen mit Boxplots
Sehen von Datenmustern mit Streudigrammen
Erstellung erweiterter Streudiagramme
Darstellung von Gruppen
Darstellung von Korrelationen
Plotten von Zeitreihen
Abbildung der Zeit auf den Achsen
Plotten von Trends über einen bestimmten Zeitraum
Plotten geografischer Daten
Visualisierung mit Graphen
Erstellung ungerichteter Graphen
Erstellung gerichteter Graphen
11 Die Tools verstehen
Arbeiten mit der IPython-Konsole
Arbeiten mit Bildschirmtext
Wechseln der Fensteranzeige
Die Python-Hilfe
Die IPython-Hilfe
Nutzung der magischen Funktionen
Objekte untersuchen
Das IPython Notebook
Arbeiten mit Formatvorlagen
Neustarten des Kernels
Wiederherstellung eines Checkpoints
Multimedia- und Grafikintegration
Einbetten von Plots und anderen Bildern
Laden von Beispielen aus Webseiten
Erhalt von Online-Grafiken und Multimedia
Teil IV Daten handhabbar machen
12 Pythons Möglichkeiten erweitern
Mit Scikit-learn spielen
Klassen in Scikit-learn verstehen
Anwendungen für Data Science erkennen
Den Hashing-Trick durchführen
Hash-Funktionen nutzen
Hash-Tricks demonstrieren
Mit deterministischer Selektion arbeiten
Zeit und Performance berücksichtigen
Benchmarking mit timeit
Mit dem Speicher-Profiler arbeiten
Parallele Verarbeitung
Mehrkern-Verarbeitung durchführen
Mehrkern-Verarbeitung demonstrieren
13 Datenanalyse erforschen
Der EDA-Ansatz
Beschreibende Statistik für numerische Daten
Lagemaße bestimmen
Messung von Varianz und Spannweite
Arbeiten mit Perzentilen
Normalitätsmaße
Zählen von kategorialen Daten
Häufigkeiten verstehen
Kontingenztafeln erstellen
Angewandte Visualisierung für EDA
Boxplots untersuchen
T-Test nach dem Boxplot durchführen
Parallele Koordinaten beobachten
Grafische Darstellung von Verteilungen
Streudiagramme zeichnen
Korrelation verstehen
Kovarianz und Korrelation nutzen
Nichtparametrische Korrelation nutzen
Chi-Quadrat für Tabellen betrachten
Datenverteilungen modifizieren
Die Normalverteilung nutzen
Eine Z-Score-Standardisierung erstellen
Andere beachtenswerte Verteilungen transformieren
14 Dimensionalität verringern
SVD verstehen
Auf der Suche nach Dimensionalitätsverringerung
SVD nutzen, um das Unsichtbare zu messen
Faktor- und Hauptkomponentenanalyse durchführen
Das psychometrische Modell berücksichtigen
Nach versteckten Faktoren suchen
Komponenten nutzen, nicht Faktoren
Dimensionalitätsverringerung erreichen
Einige Anwendungen verstehen
Gesichter erkennen mit PCA
Themen mit NMF extrahieren
Filme empfehlen
15 Clustering
Mit K-means clustern
K-means-Algorithmen verstehen
Ein Beispiel mit Bilddaten
Nach optimalen Lösungen suchen
Big Data clustern
Hierarchisches Clustering durchführen
Jenseits von runden Clustern: DBScan
16 Ausreißer in Daten aufspüren
Das Aufspüren von Ausreißern in Betracht ziehen
Weitere Dinge finden, die schiefgehen können
Anomalien bei neuen Daten verstehen
Eine einfache univariate Methode untersuchen
Auf die Gauß-Verteilung zählen
Annahmen machen und überprüfen
Einen multivariaten Ansatz entwickeln
Hauptkomponentenanalyse nutzen
Cluster-Analyse nutzen
Ausreißer mit SVM automatisch erkennen
Teil V Aus Daten lernen
17 Vier einfache und effektive Algorithmen erkunden
Die Zahl schätzen: Lineare Regression
Die Familie der linearen Modelle definieren
Mehr Variablen nutzen
Limitierungen und Probleme verstehen
Zur logistischen Regression wechseln
Logistische Regression anwenden
Betrachtung, wenn es mehrere Klassen sind
Die Dinge einfach machen – Naiver Bayes
Herausfinden, dass naiver Bayes nicht so naiv ist
Textklassifizierungen vorhersagen
Faul lernen mit der Nearest-Neighbors-Methode
Vorhersagen nach der Beobachtung von Nachbarn
Wählen Sie Ihren k-Parameter geschickt
18 Kreuzvalidierung, Selektion und Optimierung durchführen
Über das Problem der Anpassung eines Modells nachdenken
Trend und Varianz verstehen
Eine Strategie zur Modellauswahl definieren
Zwischen Trainings- und Testsatz trennen
Kreuzvalidierung
Kreuzvalidierung auf k Teilmengen anwenden
Probenschichtung für komplexe Daten
Variablen wie ein Profi auswählen
Durch univariate Maße selektieren
Eine Greedy-Suche nutzen
Ihre Hyperparameter aufbessern
Eine Rastersuche implementieren
Eine Zufallssuche versuchen
19 Steigerung der Komplexität mit linearen und nichtlinearen Tricks
Nichtlineare Transformationen nutzen
Variablentransformation ausüben
Interaktionen zwischen Variablen erstellen
Lineare Modelle regularisieren
Sich auf die Kamm-Regression (L2) verlassen
Das Lasso (L1) nutzen
Nutzung der Regularisierung
Elasticnet: L1 & L2 kombinieren
Kampf mit Big Data Stück für Stück
Bestimmen, ob es zu viele Daten sind
Implementierung des stochastischen Gradientenabstiegs
Support Vector Machines verstehen
Auf ein Berechnungsverfahren verlassen
Viele neue Parameter festlegen
Mit SVC klassifizieren
Nichtlinear arbeiten ist einfach
Regression mittels SVR ausführen
Stochastische Lösungen mit einer SVM erstellen
20 Die Macht der Vielen verstehen
Mit einfachen Entscheidungsbäumen anfangen
Einen Entscheidungsbaum verstehen
Klassifikations- und Regressionsbäume erstellen
Maschinelles Lernen zugänglich machen
Mit einem Random Forest Classifier arbeiten
Mit einem Random-Forest-Regressor arbeiten
Einen Random Forest optimieren
Vorhersagen stärken
Wissen, dass viele schwache Prädiktoren gewinnen
Einen Gradient-Boosting-Klassifikator erstellen
Einen Gradient-Boosting-Regressor erstellen
GBM-Hyperparameter nutzen
Teil VI Der Top-Ten-Teil
21 Zehn wichtige Data-Science-Ressourcensammlungen
Einblicke mit Data Science Weekly erhalten
Eine Ressourcenliste bei U-Climb-Higher erhalten
Einen guten Start mit KDnuggets
Auf die lange Liste von Ressourcen auf Data-Science-Central zugreifen
Die Fakten über Open-Source-Data-Science von Meistern erhalten
Gratis-Lernressourcen mit Quora aufspüren
Hilfe zu fortgeschrittenen Themen auf Conductrics erhalten
Neue Tricks vom Aspirational Data Scientist lernen
Data-Intelligence- und Analytics-Quellen auf AnalyticBridge finden
Mit Jonathan Bower die Ressourcen der Entwickler entdecken
22 Zehn Datenherausforderungen, die Sie annehmen sollten
Der Data-Science-London + Scikit-learn-Herausforderung begegnen
Das Überleben auf der Titanic vorhersagen
Einen Kaggle-Wettbewerb finden, der Ihren Bedürfnissen entspricht
An Ihren Überanpassungsstrategien feilen
Durch den MovieLens-Datensatz gehen
Spam-E-Mails loswerden
Mit handgeschriebenen Informationen arbeiten
Mit Bildern arbeiten
Amazon.com-Reviews analysieren
Mit einem riesigen Graphen interagieren
Stichwortverzeichnis
End User License Agreement
← Prev
Back
Next →
← Prev
Back
Next →