1.Erwähnt sei an dieser Stelle nur der bekannte Disput zwischen Marvin Minsky, der an der oben erwähnten Konferenz am Dartmouth College teilgenommen hatte und der über 50 Jahre hinweg das Forschungsgebiet künstliche Intelligenz am MIT vorangebracht hat, und Frank Rosenblatt, der das Konzept des Perzeptrons eingeführt hat.
2.Man betrachte hier nur die massiven Investitionen Chinas in die KI-Forschung oder auch die KI-Initiative der Deutschen Bundesregierung (https://www.bmbf.de/files/180718%20Eckpunkte_KI-Strategie%20final%20Layout.pdf).
3.Winston nach [Görz et al. 2013]
4.http://www.datascienceassn.org/about-data-science
1.Interessante Beispiele hierzu finden sich bei [Mcafee & Brynjolfsson 2018].
2.Die Definition des Begriffs »Big Data« an sich gestaltet sich bereits schwierig. Mit einem Augenzwinkern sei an dieser Stelle auf David Taylors Blogeintrag »Battle of the Data Science Venn Diagrams« verwiesen [Taylor 2016].
3.Wie weit diese auch in anderen Unternehmensbereichen wirkenden Veränderungen gehen können und mit welcher Geschwindigkeit sie ablaufen, verdeutlicht Pratt. Er spricht im Bereich der Robotik sogar von einer kambrischen Explosion [Pratt 2015]. Diese wird nach Mcafee und Brynjolfsson angetrieben von DANCE (Daten, Algorithmen, Netzwerken, der Cloud und den exponentiellen Verbesserungen der Hardware) [Mcafee & Brynjolfsson 2018, S. 114 ff.].
4.Zur Bedeutung der Datenqualität im Data-Warehouse-Prozess vgl. [Bauer & Günzel 2013].
5.Vgl. [Kelleher & Tierney 2018, S. 36].
6.Vergleichbar ist dieser Gedanke mit dem 10. der »Twelve Principles of Agile Software«, die die Führungspraktiken, die sich hinter den Ideen des Agilen Manifests befinden, erläutern. Hier heißt es: »Simplicity – the art of maximizing the amount of work not done – is essential«, https://www.agilealliance.org/agile101/12-principles-behind-the-agile-manifesto.
7.Eine ausführliche Darstellung der Ziele und der Funktionsweisen eines BICC findet sich bei [Gansor & Totok 2015].
8.Vgl. http://www.wisdomportal.com/Technology/TSEliot-TheRock.html. Ein weiteres, oft bemühtes Zitat in diesem Kontext stammt von Frank Zappa, der 1979 in seinem Song
»Packard Goose« textete:
»Information is not knowledge
Knowledge is not wisdom
Wisdom is not truth.«
9.Eine Kritik an dieser Darstellung findet sich bei [Weinberger 2010].
10.Zum Thema BI und Cloud Computing vgl. [Finger 2018].
11.In Anlehnung an [Kelleher & Tiereney 2018, S. 57].
12.Auf ethische Fragen, die mit dem Einsatz von Machine Learning und automatisierten Entscheidungssystemen zusammenhängen, gehen die Autoren Haun und Meier in Kapitel 11 näher ein. Auf die Tatsache, dass Algorithmen nicht objektiv sind, weisen verschiedene Autoren hin. Hier geht es unter anderem um die Diskriminierung durch Algorithmen [Kelleher & Tierney 2018, S. 181 ff.] oder um ein Phänomen, das Mcafee und Brynjolfsson als »Böse Algorithmen« betiteln [Mcafee & Brynjolfsson 2018, S. 63].
13.Zu einer ausführlichen Darstellung zu Data-Science-Architekturen, Tools und Framework siehe Kapitel 8 von Zimmer.
14.Vgl. https://gi.de/informatiklexikon/big-data/.
15.IBM nutzt diese Bezeichnung ebenfalls, hebt dabei jedoch darüber hinaus stark auf die Mischung von On-Premises mit Cloud-Lösungen ab [IBM 2017].
1.Vgl. https://sloanreview.mit.edu/article/the-risk-of-machine-learning-bias-and-how-to-prevent-it/. Es lassen sich leicht zahlreiche Beispiele dafür finden, wie Bilderkennungsverfahren nach menschlichen Maßstäben groteske Fehler machen. Dies mögen spezifische und eher unterhaltsame Beispiele sein, die zugrunde liegenden Defizite betreffen jedoch jede Anwendung, vgl. auch http://www.evolvingai.org/fooling.
2.Beispielsweise können »Deep Learning«-Techniken erst mit einer sehr großen Menge an Datensätzen effektiv genutzt werden, vgl. https://towardsdatascience.com/deep-learning-vs-classical-machine-learning-9a42c6d48aa. Hochinteressant ist auch der Vergleich zwischen klassischen statistischen Verfahren und Machine-Learning-Methoden bei der Vorhersage von Zeitreihen: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0194889#sec025.
3.Lesenswert ist hier Mary K. Pratts Plädoyer für einen »kleinen Start« und ein möglichst organisches Wachstum: https://www.cio.com/article/3269012/analytics/why-data-analytics-initiatives-still-fail.html.
4.So erfordert der Aufbau eines Data Lake in Verbindung mit industrialisierten Data-Science-Architekturen schnell eine Investition von mehreren Millionen Euro.
5.Die Umfrage wurde 2017 in den USA mit 250 Unternehmensverantwortlichen durchgeführt. Die hier bereits erwähnten beiden grundlegenden Kategorien der Ertragssteigerung und Kostensenkung wurden in der Umfrage deutlich feiner unterteilt, um die strategischen Ausrichtungen der Initiativen besser zu verstehen.
6.Vgl. Alberto Artasanchez’ erklärtermaßen nicht apokalyptisch gemeinten, wenngleich so wirkenden Text »Why your machine learning project will fail«: http://thedatascience.ninja/2018/07/12/why-your-machine-learning-project-will-fail/.
7.Vgl. dazu Ben Dicksons ausführlichen und launigen Artikel über die Grenzen zwischen künstlicher und menschlicher Intelligenz: »The limits and challenges of deep learning«, https://bdtechtalks.com/2018/02/27/limits-challenges-deep-learning-gary-marcus/.
1.https://www.google.com/recaptcha/, zugegriffen am 10.07.2018.
2.https://www.tesla.com/de_DE/autopilot, zugegriffen am 10.07.2018.
3.https://www.deutschepost.de/de/d/deutsche-post-direkt/addressfactory.html, zugegriffen am 10.07.2018.
4.Die Übertragung des Konzepts der Wertschöpfungskette von Porter auf Informationen nimmt ihren Anfang in den Entstehungsjahren des World Wide Web (vgl. [Bodenbenner 2015, S. 11 ff.]).
1.https://sweaty.hs-offenburg.de
3.https://www.audi-autonomous-driving-cup.com/
4.https://github.com/tensorflow/models/tree/master/research/object_detection
6.https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/detection_model_zoo.md
7.Nao ist ein humanoider Roboter des französischen Roboterherstellers Aldebaran Robotics (Quelle: de.wikipedia.org).
8.https://youtu.be/9QLy6KCGOeU
9.https://developer.nvidia.com/cuda-zone
10.https://en.wikipedia.org/wiki/Comparison_of_deep_learning_software
11.http://deeplearning.net/datasets/
12.http://yann.lecun.com/exdb/mnist
15.https://ai.googleblog.com/2015/07/how-google-translate-squeezes-deep.html
16.http://www.scinexx.de/wissen-aktuell-21089-2017-01-26.html
17.https://ai.googleblog.com/2018/02/assessing-cardiovascular-risk-factors.html
18.http://tinyclouds.org/colorize/
19.http://thispersondoesnotexist.com
20.https://deepmind.com/research/publications/playing-atari-deep-reinforcement-learning/
21.https://www.sciencedirect.com/science/article/pii/S1878778917300856
22.https://www.wired.com/2015/07/google-says-ai-catches-99-9-percent-gmail-spam/
23.https://www.researchgate.net/publication/323107352_How_AI_Affects_the_Future_Predictive_Maintenance_A_Primer_of_Deep_Learning
1.»Bei einem DWH handelt es sich um eine dispositive Datenhaltung zur Managementunterstützung. Sie ist von den operativen Datenbeständen getrennt, themenorientiert, integriert, zeitraumbezogen und dauerhaft« [Zimmer 2015, S. 18].
2.»Nach Inmon ist ein ODS eine subjektorientierte, integrierte volatile, detaillierte und zeitpunktbezogene Datenhaltungskomponente« [Zimmer 2015, S. 19].
3.»Unter Data Science wird im Unternehmenskontext ein ganzheitlicher Ansatz verstanden, wie aus Daten Wissen generiert und für Unternehmen nutzbar gemacht wird. Dies ist ein interdisziplinärer Ansatz, der Methoden und Konzepte aus den Bereichen Machine Learning, Statistik, Informatik, Management und Organisation umfasst und diese in einer holistischen Betrachtungsweise zusammenführt« [Haneke et al. 2018, S. 5].
4.»A data lake is a collection of storage instances of various data assets additional to the originating data sources. These assets are stored in a near-exact, or even exact, copy of the source format. The purpose of a data lake is to present an unrefined view of data to only the most highly skilled analysts, to help them explore their data refinement and analysis techniques independent of any of the system-of-record compromises that may exist in a traditional analytic data store (such as a data mart or data warehouse)« [Gartner 2018a].
5.»Bei einem unüberwachten Sandbox-Ansatz greift der Fachbereich auf eine standardisiert […] bereitgestellte Sandbox zu und nutzt diese mithilfe eigener […] Werkzeuge« [Trahasch & Zimmer 2015, S. 106; Zimmer 2016].
6.So dauerte es in einer Kundensituation beispielsweise mehrere Monate, ein produktiv gesetztes Modell zu analysieren, um Änderungen an fest codierten Parametern vorzunehmen. Erschwerend kam in diesem Fall hinzu, dass im Zuge einer Data Science als Kunst auf eine Dokumentation verzichtet wurde.
7.Wie z.B. von SAS als Leader im Analytics Quadrant von Gartner.
8.Digitale Agilität ist die Eigenschaft eines Data & Analytics-Ökosystems auf vorhersehbare und unvorhersehbare Anforderungen in Bezug auf Funktionalität oder Inhalt, eine BI-Lösung in einem vorgegebenen Zeitrahmen in angemessener Qualität abzubilden (vgl. [Beierschoder & Zimmer 2016]).
9.Je nach Unternehmen können auch noch Integrationsumgebungen und PreProd-Umgebungen unterschieden werden. Auf diese wird nachfolgend aber nicht eingegangen.
10.Hier ist auch das Konzept der MLOps zu beachten, bei dem DevOps auf analytische Modelle übertragen werden.
11.Vgl. hierzu auch Kapitel 2 zu Anforderungen an Data Scientists.
12.Vgl. hierzu auch die Abschnitte zu Governance in Kapitel 9.
1.BI-Agilität ist die »Eigenschaft der BI, vorhersehbare Anforderungen in Bezug auf Funktionalität oder Inhalt einer BI-Lösung in einem vorgegebenen Zeitrahmen in angemessener Qualität abzubilden« [Trahasch & Zimmer 2015, S. 4].
2.So hat die HypoVereinsbank bereits im Jahr 2007 Self-Service-Datenaufbereitung im Fachbereich und Self-Service-Data-Science zur Texterkennung auf Basis einer SAS DWH-Architektur genutzt (vgl. [HypoVereinsbank 2008]).
3.Die Basler Versicherung hat ihren Aktuaren beispielsweise in der DWH-Architektur die Möglichkeit gegeben, eigenständig Daten aufzubereiten, Marts zu erstellen und diese an die IT zur Standardisierung zu übergeben (vgl. [Meier & Zimmer 2018]).
4.Otto Neuer argumentiert in einem Interview ähnlich. Auf die Frage, ob die Fachabteilungen mit diesen Self-Services nicht hoffnungslos überfordert seien, antwortet er: »Inzwischen nicht mehr. Vor allem die jüngere Generation der Mitarbeiter ist deutlich datenaffiner. Sie verlangen ja auch einfach einsetzbare Integrations-Tools, damit sie schneller ihre Datenbestände analysieren können. Wir haben früher schon mit den Fachabteilungen gesprochen. Damals wurde die Datenaufbereitung meist an die IT verschoben. Heute wollen Fachbereiche das selber machen, weil es so oftmals schneller geht« [Neuer 2018].
5.Die Weiterentwicklung der zentralen Datenbasis (z.B. DWH, Data Lake oder Data Mart) durch den Fachbereich wird in dieser Anwendungsklasse subsumiert und nicht gesondert aufgeführt.
6.»Bei einem unüberwachten Sandbox-Ansatz greift der Fachbereich auf eine standardisiert […] bereitgestellte Sandbox zu und nutzt diese mithilfe eigener […] Werkzeuge« [Trahasch & Zimmer 2015, S. 106].
7.In einer überwachten Sandbox sind die Fachbereiche in der Lage, eigenständig auf produktiven Datenquellen (zum Beispiel Data Marts) oder eigenen Datenquellen Self-Service-Analysen durchzuführen. Hierzu stehen ihnen alle Werkzeuge inklusive der ETL-Tools der IT zur Verfügung. Um eine Übergabe in den Regelbetrieb zu ermöglichen, sind in einer überwachten Sandbox klare Governance-Strukturen vorgegeben (vgl. [Meier & Zimmer 2018; Trahasch & Zimmer 2015]).
8.Förth und Tischler gehen sogar davon aus, dass diese Anwendergruppe eher Managed oder Serviced BI bevorzugt statt Self-Service-BI [Förth & Tischler 2018].
9.Eckerson misst dem Thema Governance dabei eine große Bedeutung zu: »The mantra today is ›governed self-service‹ – that is, let’s provide business units with the ability to service their own information needs but within a governed framework managed centrally by the corporate BI team« [Eckerson 2016]. Eine ähnliche Argumentation findet sich bei [Seidler 2017, S. 7].
10.https://www.dremio.com/what-is-data-engineering
11.Vgl. hierzu Abbildung 3–1 aus Kapitel 3 sowie [Meier & Zimmer 2018].
12.Vgl. [Kelleher & Tierney 2018, S. 73]. Seidler warnt jedoch davor, das Data Warehouse, den Single Point of Truth, ohne eine geeignete Toolunterstützung als eine von vielen Datenquellen in der Analytik heranzuziehen. Dadurch würde der »SPOT zur Datenpumpe statt Datenbasis umfunktioniert« [Seidler 2017, S. 6].
13.Eine sehr gute und ausführliche Darstellung findet sich in [Bauer & Günzel 2013]. Eine Übersicht zur Datenqualität vor dem Hintergrund von Big Data und die daraus folgenden Anforderungen an Herangehensweise und Beurteilung liefern [Cai & Zhu 2015].
14.Zum Teil wird auch von Data Wrangling gesprochen.
15.Einen guten Überblick zur Entwicklung und zum Stand von Bimodal IT findet sich bei [Urbach 2018].
16.Vgl. [Trahasch & Zimmer 2015; Meier & Zimmer 2018; HypoVereinsbank 2008; Zimmer 2008].
17.Das von [Baars et al. 2010] eingeführte Governance-Konzept unterstützt dieses bimodale Vorgehen implizit.
18.Dies entspricht den bereits vorgestellten überwachten Sandboxes.
19.Der Artikel [Chin et al. 2020] hat zahlreiche Diskussionen dahingehend angestoßen.
20.LaPlante weist darauf hin, dass aufgrund der rechenintensiven Technologien die meisten Unternehmen auf eine Cloud-basierte Infrastruktur setzen [LaPlante 2019].
21.Eckerson spricht von einem »Self-Service-Triumvirat« aus Data Catalog, Data Preparation und Data Visualization, das er in einer entsprechenden Data Analyst Workbench vereint sieht [Eckerson 2018].
1.Genauigkeit ist hier definiert als die Anzahl richtiger Klassifikationen, das heißt, vorhergesagte Klasse ist gleich tatsächlicher Klasse.
2.Weitere Codebeispiele zu Customer Churn:
1.https://corporate.zalando.com/en/company/zalando-at-a-glance
1.Im deutschsprachigen Raum wird gerne der Begriff »Industrie 4.0« zur Verschlagwortung der vierten industriellen Revolution verwendet. Er geht auf die Herren Kagermann, Lukas und Wahlster zurück und erblickte 2011 auf der Hannovermesse das Licht der Öffentlichkeit [Kagermann et al. 2011].
2.Gemäß einer vom Bundesministerium für Bildung und Forschung geförderten Expertenbefragung, ausgewertet in [Kuhn et al. 2006], hat die Bedeutung der Instandhaltung in den letzten Jahren erheblich zugenommen (78,5% der Umfrageteilnehmer) und wird in den nächsten Jahren weiter zunehmen (67,1%). Als Gründe für den Bedeutungszuwachs gelten unter anderem die steigende Anlagenkomplexität, die erhöhten Produktivitätsanforderungen und steigenden Sicherheits- und Umweltschutzanforderungen.
3.Folglich entspricht diese Strategie der zu Beginn von Abschnitt 15.2 beschriebenen »Feuerwehr«, die im Wesentlichen mit Löschen von »Bränden« beschäftigt ist.
4.ERP = Enterprise Resource Planning stellt sicher, dass alle für die Produktion erforderlichen Ressourcen, wie etwa Material oder Personal, zur richtigen Zeit in der richtigen Menge an Ort und Stelle sind.
5.www.heidelberg.com, im Folgenden kurz Heidelberger Druck genannt.
6.www.sake-projekt.de, SAKE = Semantische Analyse komplexer Ereignisse.
7.https://www.valuemation.com/
1.Natürlich bestehen auch für die Zurich die rechtlichen Trennungen nach Sparten wie z. B. Kranken und Leben. Hier darf aus gesetzlicher Sicht kein Austausch erfolgen. Vgl. hierzu auch Anwendungsfall 1 in Abschnitt 18.3.1.
2.Die Möglichkeit, Dokumente für NLP-Anwendungen zu digitalisieren, ist keine Commodity. Sie ist vielmehr bei einer Vielzahl deutscher Versicherer als Grundvoraussetzung nicht gegeben. Innerhalb der Branche sind immer noch historisch gewachsene Inbox-Systeme weit verbreitet.
3.In Deutschland firmiert die Motorfahrzeugversicherung unter dem Begriff Kfz-Versicherung.
4.Der Einfachheit halber wurde dieser fiktive Betrag genommen, da Versicherte in der Regel Kfz-Schäden unter diesem Betrag selbst zahlen, um nicht hochgestuft zu werden.