Log In
Or create an account -> 
Imperial Library
  • Home
  • About
  • News
  • Upload
  • Forum
  • Help
  • Login/SignUp

Index
Cover Schummelseite Titelei Inhaltsverzeichnis Über die Autoren Luca Massarons Widmung John Muellers Widmung Luca Massarons Danksagung John Muellers Danksagung Einleitung
Über dieses Buch Törichte Annahmen Im Buch verwendete Symbole Über das Buch hinaus Wie es weitergeht
Teil I Erste Schritte mit Python für Data Science
1 Wie Data Science und Python zusammenpassen
Die Definition des geilsten Jobs des 21. Jahrhunderts
Die Entstehung von Data Science Umriss der Kernkompetenzen eines Data Scientists Die Verbindung von Data Science und Big Data Das Verständnis der Rolle der Programmierung
Die Entwicklung einer Data-Science-Pipeline
Vorbereitung der Daten Darstellung der beschreibenden Datenanalyse Von den Daten lernen Visualisierung Erkenntnisse und Ergebnisse
Die Rolle von Python in Data Science
Das sich wandelnde Profil eines Data Scientists Die Arbeit mit einer vielseitigen, einfachen und effizienten Sprache
Der schnelle Einstieg in Python
Daten laden Ein Modell ableiten Anzeige eines Ergebnisses
2 Einführung in Pythons Fähigkeiten und Möglichkeiten
Warum Python?
Verständnis der Kernphilosophie Pythons Gegenwärtige und zukünftige Entwicklungsziele entdecken
Arbeiten mit Python
Ein Vorgeschmack auf die Sprache Die Notwendigkeit von Einrückungen verstehen Arbeiten mit der Kommandozeile oder IDE
Schnelles Prototyping und Experimentieren Die Geschwindigkeit der Ausführung Die Kraft der Visualisierung Das Python-Ökosystem für Data Science
Mit SciPy auf wissenschaftliche Werkzeuge zugreifen Grundlagen des wissenschaftlichen Rechnens mit NumPy Datenanalyse mit Pandas Implementierung des maschinellen Lernens mit Scikit-learn Plotten mit MatPlotLib Syntaxanalyse von HTML-Dokumenten mit Beautiful Soup
3 Einrichtung von Python für Data Science
Betrachtung der üblichen wissenschaftlichen Distributionen
Continuum Analytics Anaconda Enthought Canopy Express Pythonxy WinPython
Installation von Anaconda auf Windows Installation von Anaconda auf Linux Installation von Anaconda auf Mac OS X Download der Datensätze und des Beispielcodes
Die Nutzung von IPython Notebook Festlegung des Code-Archivs Verständnis der in diesem Buch verwendeten Datensätze
4 Die Grundlagen von Python
Arbeiten mit Zahlen und Logik
Zuordnung von Variablen Arithmetik Vergleichen von Daten mit booleschen Ausdrücken
Erstellung und Nutzung von Zeichenketten Interaktionen mit einer Zeitangabe Erstellung und Verwendung von Funktionen
Entwicklung wiederverwendbarer Funktionen Der Aufruf einer Funktion auf unterschiedliche Arten
Verwendung von bedingten und iterativen Anweisungen
Entscheidungsfindung mit der if-Anweisung Die Wahl zwischen mehreren Optionen mit verschachtelten Entscheidungen Ausführung sich wiederholender Aufgaben mit dem for-Kommando Verwendung der while-Anweisung
Daten mit Mengen, Listen und Tupeln speichern
Operationen mit Mengen Die Arbeit mit Listen Erstellung und Verwendung von Tupeln
Definition nützlicher Iteratoren Indizierung von Daten mit Dictionaries
Teil II Mit Daten arbeiten
5 Arbeiten mit richtigen Daten
Upload, Streaming und Auswahl von Daten
Laden kleiner Datenmengen in den Speicher Laden großer Datenmengen in den Speicher Auswahl von Daten
Daten in strukturierter Flatfile-Form
Aus einer Textdatei lesen Lesen des CSV-Formats Lesen von Excel- oder anderen Microsoft-Dateien
Laden von Daten aus unstrukturierten Dateien Verwaltung von Daten aus relationalen Datenbanken Interaktion mit Daten einer NoSQL-Datenbank Verwendung von Daten aus dem Internet
6 Konditionierung der Daten
Zwischen NumPy und Pandas hin- und herjonglieren
Wann man NumPy verwendet Wann man Pandas verwendet
Validierung der Daten
Herausfinden, was in Ihren Daten steckt Duplikate entfernen Erstellung einer Datenkarte und eines Datenplans
Manipulation kategorialer Variablen
Erstellung kategorialer Variablen Umbenennen der Ebenen Die Kombination von Ebenen
Der Umgang mit Zeitangaben in Ihren Daten
Formatierung von Datums- und Zeitangaben Die richtige Zeittransformation
Umgang mit fehlenden Daten
Fehlende Daten finden Codierung fehlender Daten Einspeisung fehlender Daten
Schneiden und Vereinzeln: Filtern und Auswählen von Daten
Zeilen schneiden Spalten schneiden Vereinzelung
Verkettung und Transformation
Neue Fälle und Variablen hinzufügen Entfernen von Daten Sortieren und Mischen
Aggregation von Daten auf einer Ebene
7 Daten in Form bringen
Arbeiten mit HTML-Seiten
Parsen von XML und HTML Benutzung von XPath für die Extraktion von Daten
Die Arbeit mit reinem Text
Die Arbeit mit Unicode Stemming und Entfernen von Stoppwörtern Einführung in reguläre Ausdrücke
Verwendung des Bag-of-Words-Modells und anderer Modelle
Funktionsweise des Bag-of-Words-Modells Arbeiten mit N-Grammen Implementierung von TF-IDF Transformationen
Arbeiten mit Graphdaten
Die Adjazenzmatrix Grundlagen in NetworkX
8 Das, was Sie schon wissen, in die Tat umsetzen
Kontextualisierung von Problemen und Daten
Auswertung eines Data-Science-Problems Erforschung von Lösungen Formulierung einer Hypothese Vorbereitung Ihrer Daten
Betrachtung der Erstellung von Merkmalen
Definition der Merkmalserstellung Kombination von Variablen Klasseneinteilung und Diskretisierung Verwendung von Indikatorvariablen Umwandlung von Verteilungen
Operationen mit Arrays
Vektorisierung Einfache Arithmetik mit Vektoren und Matrizen Matrix-Vektor-Multiplikation Matrix-Multiplikation
Teil III Visualisierung des Unsichtbaren
9 Ein Crashkurs in MatPlotLib
Mit einem Graphen beginnen
Definition eines Plots Zeichnen mehrerer Linien und Plots Speichern Sie Ihre Arbeit
Einstellen der Achsen, Intervalle und Gitternetzlinien
Die Achsen Formatierung der Achsen Hinzufügen von Gitternetzen
Das Erscheinungsbild von Linien festlegen
Die Arbeit mit Linienstilen Verwendung von Farben Marker hinzufügen
Labels, Anmerkungen und Legenden
Hinzufügen von Labels Hinzufügen von Anmerkungen zum Diagramm Erstellen einer Legende
10 Visualisierung von Daten
Die Wahl der richtigen Grafik
Darstellung von Teilen eines Ganzen mit Kreisdiagrammen Darstellung von Vergleichen mit Balkendiagrammen Darstellung von Vergleichen mit Histogrammen Darstellung von Gruppen mit Boxplots Sehen von Datenmustern mit Streudigrammen
Erstellung erweiterter Streudiagramme
Darstellung von Gruppen Darstellung von Korrelationen
Plotten von Zeitreihen
Abbildung der Zeit auf den Achsen Plotten von Trends über einen bestimmten Zeitraum
Plotten geografischer Daten Visualisierung mit Graphen
Erstellung ungerichteter Graphen Erstellung gerichteter Graphen
11 Die Tools verstehen
Arbeiten mit der IPython-Konsole
Arbeiten mit Bildschirmtext Wechseln der Fensteranzeige Die Python-Hilfe Die IPython-Hilfe Nutzung der magischen Funktionen Objekte untersuchen
Das IPython Notebook
Arbeiten mit Formatvorlagen Neustarten des Kernels Wiederherstellung eines Checkpoints
Multimedia- und Grafikintegration
Einbetten von Plots und anderen Bildern Laden von Beispielen aus Webseiten Erhalt von Online-Grafiken und Multimedia
Teil IV Daten handhabbar machen
12 Pythons Möglichkeiten erweitern
Mit Scikit-learn spielen
Klassen in Scikit-learn verstehen Anwendungen für Data Science erkennen
Den Hashing-Trick durchführen
Hash-Funktionen nutzen Hash-Tricks demonstrieren Mit deterministischer Selektion arbeiten
Zeit und Performance berücksichtigen
Benchmarking mit timeit Mit dem Speicher-Profiler arbeiten
Parallele Verarbeitung
Mehrkern-Verarbeitung durchführen Mehrkern-Verarbeitung demonstrieren
13 Datenanalyse erforschen
Der EDA-Ansatz Beschreibende Statistik für numerische Daten
Lagemaße bestimmen Messung von Varianz und Spannweite Arbeiten mit Perzentilen Normalitätsmaße
Zählen von kategorialen Daten
Häufigkeiten verstehen Kontingenztafeln erstellen
Angewandte Visualisierung für EDA
Boxplots untersuchen T-Test nach dem Boxplot durchführen Parallele Koordinaten beobachten Grafische Darstellung von Verteilungen Streudiagramme zeichnen
Korrelation verstehen
Kovarianz und Korrelation nutzen Nichtparametrische Korrelation nutzen Chi-Quadrat für Tabellen betrachten
Datenverteilungen modifizieren
Die Normalverteilung nutzen Eine Z-Score-Standardisierung erstellen Andere beachtenswerte Verteilungen transformieren
14 Dimensionalität verringern
SVD verstehen
Auf der Suche nach Dimensionalitätsverringerung SVD nutzen, um das Unsichtbare zu messen
Faktor- und Hauptkomponentenanalyse durchführen
Das psychometrische Modell berücksichtigen Nach versteckten Faktoren suchen Komponenten nutzen, nicht Faktoren Dimensionalitätsverringerung erreichen
Einige Anwendungen verstehen
Gesichter erkennen mit PCA Themen mit NMF extrahieren Filme empfehlen
15 Clustering
Mit K-means clustern
K-means-Algorithmen verstehen Ein Beispiel mit Bilddaten Nach optimalen Lösungen suchen Big Data clustern
Hierarchisches Clustering durchführen Jenseits von runden Clustern: DBScan
16 Ausreißer in Daten aufspüren
Das Aufspüren von Ausreißern in Betracht ziehen
Weitere Dinge finden, die schiefgehen können Anomalien bei neuen Daten verstehen
Eine einfache univariate Methode untersuchen
Auf die Gauß-Verteilung zählen Annahmen machen und überprüfen
Einen multivariaten Ansatz entwickeln
Hauptkomponentenanalyse nutzen Cluster-Analyse nutzen Ausreißer mit SVM automatisch erkennen
Teil V Aus Daten lernen
17 Vier einfache und effektive Algorithmen erkunden
Die Zahl schätzen: Lineare Regression
Die Familie der linearen Modelle definieren Mehr Variablen nutzen Limitierungen und Probleme verstehen
Zur logistischen Regression wechseln
Logistische Regression anwenden Betrachtung, wenn es mehrere Klassen sind
Die Dinge einfach machen – Naiver Bayes
Herausfinden, dass naiver Bayes nicht so naiv ist Textklassifizierungen vorhersagen
Faul lernen mit der Nearest-Neighbors-Methode
Vorhersagen nach der Beobachtung von Nachbarn Wählen Sie Ihren k-Parameter geschickt
18 Kreuzvalidierung, Selektion und Optimierung durchführen
Über das Problem der Anpassung eines Modells nachdenken
Trend und Varianz verstehen Eine Strategie zur Modellauswahl definieren Zwischen Trainings- und Testsatz trennen
Kreuzvalidierung
Kreuzvalidierung auf k Teilmengen anwenden Probenschichtung für komplexe Daten
Variablen wie ein Profi auswählen
Durch univariate Maße selektieren Eine Greedy-Suche nutzen
Ihre Hyperparameter aufbessern
Eine Rastersuche implementieren Eine Zufallssuche versuchen
19 Steigerung der Komplexität mit linearen und nichtlinearen Tricks
Nichtlineare Transformationen nutzen
Variablentransformation ausüben Interaktionen zwischen Variablen erstellen
Lineare Modelle regularisieren
Sich auf die Kamm-Regression (L2) verlassen Das Lasso (L1) nutzen Nutzung der Regularisierung Elasticnet: L1 & L2 kombinieren
Kampf mit Big Data Stück für Stück
Bestimmen, ob es zu viele Daten sind Implementierung des stochastischen Gradientenabstiegs
Support Vector Machines verstehen
Auf ein Berechnungsverfahren verlassen Viele neue Parameter festlegen Mit SVC klassifizieren Nichtlinear arbeiten ist einfach Regression mittels SVR ausführen Stochastische Lösungen mit einer SVM erstellen
20 Die Macht der Vielen verstehen
Mit einfachen Entscheidungsbäumen anfangen
Einen Entscheidungsbaum verstehen Klassifikations- und Regressionsbäume erstellen
Maschinelles Lernen zugänglich machen
Mit einem Random Forest Classifier arbeiten Mit einem Random-Forest-Regressor arbeiten Einen Random Forest optimieren
Vorhersagen stärken
Wissen, dass viele schwache Prädiktoren gewinnen Einen Gradient-Boosting-Klassifikator erstellen Einen Gradient-Boosting-Regressor erstellen GBM-Hyperparameter nutzen
Teil VI Der Top-Ten-Teil
21 Zehn wichtige Data-Science-Ressourcensammlungen
Einblicke mit Data Science Weekly erhalten Eine Ressourcenliste bei U-Climb-Higher erhalten Einen guten Start mit KDnuggets Auf die lange Liste von Ressourcen auf Data-Science-Central zugreifen Die Fakten über Open-Source-Data-Science von Meistern erhalten Gratis-Lernressourcen mit Quora aufspüren Hilfe zu fortgeschrittenen Themen auf Conductrics erhalten Neue Tricks vom Aspirational Data Scientist lernen Data-Intelligence- und Analytics-Quellen auf AnalyticBridge finden Mit Jonathan Bower die Ressourcen der Entwickler entdecken
22 Zehn Datenherausforderungen, die Sie annehmen sollten
Der Data-Science-London + Scikit-learn-Herausforderung begegnen Das Überleben auf der Titanic vorhersagen Einen Kaggle-Wettbewerb finden, der Ihren Bedürfnissen entspricht An Ihren Überanpassungsstrategien feilen Durch den MovieLens-Datensatz gehen Spam-E-Mails loswerden Mit handgeschriebenen Informationen arbeiten Mit Bildern arbeiten Amazon.com-Reviews analysieren Mit einem riesigen Graphen interagieren
Stichwortverzeichnis End User License Agreement
  • ← Prev
  • Back
  • Next →
  • ← Prev
  • Back
  • Next →

Chief Librarian: Las Zenow <zenow@riseup.net>
Fork the source code from gitlab
.

This is a mirror of the Tor onion service:
http://kx5thpx2olielkihfyo4jgjqfb7zx7wxr3sd4xzt26ochei4m6f7tayd.onion