Die Analytics-Welle, die derzeit durch Unternehmen rollt, erinnert zuweilen an die 1990er-Jahre, in denen das Data Warehouse und Business Intelligence Eingang in die Informations- und Steuerungssysteme fanden. Im folgenden Beitrag wird diskutiert, ob Analytics wirklich das neue BI, also der nächste konsequente und folgerichtige Schritt ist, und welche Schlüsse die Unternehmen aus dieser Erkenntnis ziehen können. Zunächst werden die Parallelen beim Aufkommen der beiden Konzepte dargestellt, bevor der Frage nachgegangen wird, warum sich Data Science, manchmal auch als Advanced Analytics bezeichnet, und Analytics gerade jetzt so rasant verbreiten und in den Unternehmen Fuß fassen. Im Anschluss wird erläutert, warum dieser Entwicklung eine so große Bedeutung zukommt und wie sich eine mögliche Fusion der alten BI-Welt mit der neuen, erweiterten Analytics-Welt in den Informationssystemen der Unternehmen darstellen könnte.
Die aktuelle Entwicklung, die seit einigen Jahren in den Unternehmen zu beobachten ist, erinnert zuweilen an die Anfänge des Data Warehousing in der ersten Hälfte der 1990er-Jahre. Um die Parallelen aufzuzeigen und in einem zweiten Schritt auch Schlüsse für die heutige Situation ziehen zu können, sollen kurz die Herausforderungen und Rahmenbedingungen betrachtet werden, denen die Unternehmen damals gegenüberstanden. Dies betrifft nicht nur die fachlichen und technologischen Aspekte, sondern darüber hinaus auch Fragen der Organisation. Bereits Hans Peter Luhn, der lange vor Howard Dresner den Begriff Business Intelligence prägte, hatte erkannt, dass ein solches Informationssystem nur im Einklang mit entsprechenden organisatorischen Regelungen effizient genutzt werden kann [Luhn 1958].
Als der Data-Warehouse-Gedanke, vor allem getrieben durch die Arbeiten von Kimball und Inmon in den frühen 1990er-Jahren, seinen Siegeszug in der Welt der Unternehmen antrat, sorgte dies für eine grundlegend neue Qualität der betrieblichen Informationssysteme. Bis dato dominierten die sogenannten OLTP-Systeme, deren Hauptaugenmerk in der effizienten Unterstützung von betrieblichen Geschäftsprozessen lag. Waren zunächst in der Regel Insellösungen für die verschiedenen Fachabteilungen zu finden, traten Anfang der 1990er-Jahre verstärkt integrierte Standardsoftwarelösungen auf Client-Server-Basis, allen voran SAPs R/3, auf den Plan. Die neuen ERP-Systeme waren in der Lage, Geschäftsprozesse end-to-end auf einer Plattform abzubilden. Da der Fokus auf der effizienten Unterstützung der Prozesse lag, zeigten die OLTP-Lösungen häufig Schwächen im Bereich des Reportings. Diese Schwächen betrafen unter anderem Zeitreihenanalysen, die Verknüpfung von Daten aus unterschiedlichen OLTP-Anwendungen oder Fachdomänen und die Performance. Data Warehousing und OLAP sollten diese Schwächen nachhaltig überwinden.
Die Idee einer Entkopplung des Informationssystems von den operativen Systemen verbunden mit den neuen Konzepten für die Datenmodellierung und ihrem Fokus auf die Anforderungen der Informationsnachfrager führte letztlich dazu, dass mit dem Data Warehouse vieles von dem umgesetzt werden konnte, was konzeptionell schon lange an- und vorgedacht worden war. Bereits seit den 1960er-Jahren waren immer wieder entsprechende Ideen entwickelt worden, die jedoch zumeist an den technologischen Voraussetzungen scheiterten. Eine interessante historische Übersicht zur Entwicklung von Entscheidungsunterstützungssystemen, die zeigt, wie vielschichtig die Entwicklungen in den letzten 50 Jahren waren, findet sich bei Power [Power 2007]. In ihrem Standardwerk zu Data-Warehouse-Systemen schreiben Bauer und Günzel [Bauer & Günzel 2013] auch entsprechend:
»Was sich im Laufe der MIS-Bemühungen als Utopie abzeichnete […] erhält durch den Fortschritt in der Informationstechnologie im Gewand des Data Warehousing eine Renaissance.«
Die neuen OLAP-Systeme setzten sich nach und nach durch, wobei im Folgenden verschiedene Aspekte vor allem bei ihrer Einführung angesprochen werden sollen, die offensichtliche Parallelen zu heute aufweisen.
Sowohl BI als auch Data Science benötigten einen langen Atem, bevor sie letztlich Eingang in die Unternehmen fanden und sich dort etablierten. Im Fall von BI wurde gerade schon dargestellt, dass es ein langer Weg mit zahlreichen unterschiedlichen Konzepten war, bevor sich BI tatsächlich als wichtiges Werkzeug der Unternehmenssteuerung etablieren konnte. Data Science wiederum vereint unterschiedliche Ansätze und Konzepte, die ebenfalls über Jahrzehnte hinweg diskutiert und entwickelt wurden, sich jedoch bis dato nicht flächendeckend hatten durchsetzen können. Erst seit Mitte/Ende der 2000er-Jahre hat sich Data Science rasant verbreitet und ist auf dem Weg, für viele Unternehmen zu einem wichtigen Baustein der Unternehmenssteuerung zu werden. Der Begriff Data Science taucht, folgt man Kelleher und Tierney, 1997 zum ersten Mal in einer Vorlesung von Jeff Wu mit dem Titel »Statistics = Data Science« auf. Die Erweiterung des Fokus über die Statistik hinaus in Richtung Machine Learning und das Aufkommen von Big Data hat aber letztlich erst zu dem Verständnis von Data Science geführt, wie man es heute kennt [Kelleher & Tierney 2018, S. 17 ff.].
Data Science ist dabei so vielschichtig und facettenreich, dass auch die Anforderungen an einen Data Scientist kaum durch eine Person allein abdeckbar zu sein scheinen. Von Machine Learning über Storytelling und Datenbanken gehen diese Anforderungen bis hin zu Domänen-Know-how. Daneben muss der Data Scientist selbstverständlich programmieren können, sich mit NoSQL und verteilten Systemen auskennen und sehr gute Kenntnisse in den Bereichen Statistik und Wahrscheinlichkeitsrechnung aufweisen. Das »skill-set desideratum« für einen Data Scientist ist in Abbildung 2–1 dargestellt.
Abb. 2–1Das »skill set desideratum« für einen Data Scientist
Angesichts dieses Profils galt die Suche nach geeignetem und qualifiziertem Personal, um die Data Science im Unternehmen aufzubauen, daher lange als limitierender Faktor. Doch erst durch die Verknüpfung der unterschiedlichen Aspekte, Disziplinen und Kompetenzen der hier zusammenkommenden Teilbereiche hat es Data Science geschafft, den gewünschten und erhofften Mehrwert in den Unternehmen zu erbringen. Für nicht wenige Unternehmen und Geschäftsideen bedeutete Data Science und die daraus gewonnenen Erkenntnisse einen Quantensprung in der Unternehmenssteuerung mit der Möglichkeit, neue Services und Produkte erfolgreich am Markt zu platzieren.1
Warum aber gerade jetzt? Was hat sich im Vergleich zum Ende der 1990er-Jahre verändert? In Bereichen wie Machine Learning oder Data Mining, abgesehen von der Statistik, wurde seit Jahrzehnten geforscht und gearbeitet, ohne jemals diese Durchschlagskraft zu erreichen. Viele Autoren sind sich einig, dass es zum einen der technologischen Entwicklung geschuldet ist, die das Durchführen komplexer Rechenoperationen in Clustern auf sogenannter »commodity hardware« oder mittlerweile auch in der Cloud für eine breite Masse an Unternehmen ermöglicht hat. Die notwendige Software steht in vielen Fällen als Open Source zur Verfügung, sodass die Unternehmen nicht nur erste Schritte ohne großen Aufwand machen können. Auch die Skalierbarkeit ist durch das Cluster sichergestellt.
Den zweiten wichtigen Faktor stellt sicherlich Big Data dar. Auch wenn man für ein Data-Science-Projekt nicht notwendigerweise Big Data benötigt2, stellt die Tatsache, dass wir heute über einen enormen Fundus an Daten verfügen, einen wichtigen Faktor für den Erfolg und die Verbreitung von Data Science in der Wirtschaft dar. Ob es sich um Sensordaten, um Logfiles, um Daten aus dem eigenen ERP-System oder um Open Data handelt: Unternehmen verfügen heute über einen sehr großen Datenpool, mit dem sie arbeiten können.
Neben den Ideen und Konzepten müssen auch die geeigneten Technologien vorhanden sein: Wie oben für BI gezeigt, machten es erst die technologischen Fortschritte möglich, die zuvor entwickelten Ideen und Utopien tatsächlich umzusetzen. Ähnliches erleben wir heute im Bereich Data Science. Damals wie heute sind es die technischen Fortschritte, die lang erarbeitete Ideen und Konzepte endlich auch realisierbar machen.3
Im Data Warehousing war der ETL-Prozess lange Zeit ein unterschätzter Faktor. Dabei kommt gerade diesem Teil des Data-Warehouse-Prozesses aus verschiedenen Gründen eine zentrale Rolle zu. Zum einen ist die Auswahl geeigneter Datenquellen von entscheidender Bedeutung. Nur auf der Basis qualitativ hochwertiger Daten kann auch ein qualitativ hochwertiges Ergebnis im Rahmen der bereitgestellten Analysen erwartet werden. Wird dies von den Entwicklern zu wenig beachtet, können die am Ende zur Verfügung gestellten Berichte noch so schön sein, es gilt weiterhin die altbewährte Erkenntnis: »Garbage in, garbage out.«4
Zum anderen hat sich immer wieder gezeigt, dass der Workload, der mit dem ETL-Prozess verbunden ist, tendenziell unterschätzt wird. Auch wenn mittlerweile mächtige Tools für die Datenbereitstellung genutzt werden, ist vor allem die Bearbeitung von Daten mit Qualitätsmängeln nach wie vor aufwendig.
Gerade diesem Phänomen begegnet man auch im Zusammenhang mit Data Science wieder. Auch hier ist zu beobachten, dass die grundlegende Bedeutung der Data Preparation zu Beginn eines Projekts oder wenn ein Unternehmen plant, Data Science einzuführen, nicht erkannt und oftmals der damit zusammenhängende Arbeitsaufwand unterschätzt wird. Statistiken zufolge verwenden Data Scientists in der Praxis bis zu 80% ihrer Zeit für das Vorbereiten der Daten, also das Sammeln, Bereinigen und Organisieren der Daten. Kelleher und Tierney stellen dazu treffenderweise fest:
»But the simple truth is that no matter how good your data analysis is, it won’t identify useful patterns unless it is applied to the right data.«
[Kelleher & Tierney 2018, S. 67]
Auf die Möglichkeiten, wie man der Data Science die notwendigen Daten oder Datenzugriffe im Unternehmen ermöglicht, wird später in Kapitel 9 näher eingegangen.
Benutzerfreundliche Tools mit grafischen Oberflächen ermöglichen es heute auch Einsteigern, relativ schnell erste Erfahrungen im Bereich Data Science zu sammeln und Modelle zu erstellen. Dieser leichte Zugang zu den Möglichkeiten der Data Science ist Segen und Fluch zugleich. Einerseits werden Berührungsängste mit der durchaus komplexen neuen Materie für viele potenzielle Nutzer abgebaut. Andererseits benötigt man eine hohe Fachkompetenz, um den richtigen Algorithmus für den jeweiligen Use Case auszuwählen, die Ergebnisse zu interpretieren und das geeignete Data Set zu erstellen. Die Feststellung »In fact, it has never been easier to do data science badly«5 ist daher ohne Zweifel richtig. Ein Modell zu erstellen ist mit den heutigen Werkzeugen nicht schwer. Schwierig hingegen ist es, die Güte des Modells zu bewerten und Verbesserungspotenziale zu erkennen.
Ähnliches kennt man aus der Business Intelligence. Die Kunst, die Daten so abzulegen, dass auch bei einem zunehmenden Datenbestand immer noch performant die Anfragen abgearbeitet werden können und dabei die Informationsbedürfnisse der Nutzer befriedigt werden, ist wichtiger als ein schönes buntes Dashboard, das den Datenzugriff erleichtert. Gerade angesichts der, wie sich herausstellte, mangelhaften Agilität der klassischen Modellierungskonzepte war es umso wichtiger, ein nachhaltig tragfähiges Modell zu entwickeln und nicht in einem ersten Wurf einfach ein paar Datenwürfel für Pilotanwender bereitzustellen. In diese Falle sind jedoch zahlreiche Unternehmen hineingelaufen und wurden später mit entsprechendem Mehraufwand dafür bestraft.
Wer will was, wann und in welcher Form wissen? Diese und weiter gehende Fragen müssen sowohl beim Aufbau eines Data Warehouse als auch bei Data Science gestellt werden. Dennoch gehört gerade die Informationsbedarfsanalyse häufig zu den vernachlässigten Phasen beim Aufbau von Informationssystemen. Letztlich ist dieser Punkt eng mit dem vorhergehenden verbunden. Gerade weil es so leicht ist, einen Cube für die Analyse in einem Fachbereich aufzubauen oder eben mittels eines Algorithmus oder einer Regression schnell zu – augenscheinlich – neuen Erkenntnissen im Fachbereich zu kommen, geht man oftmals zu schnell über den Schritt der Informationsbedarfsanalyse hinweg. Doch gerade über diesen Schritt gelingt es nicht nur das Informationssystem passgenau zu entwickeln, sondern es wird auch die nicht geleistete Arbeit maximiert, indem man Reports oder Analysen gerade nicht erstellt, die der Endnutzer eigentlich nicht will oder benötigt.6
Auf dem Gebiet Data Science ist daher eine domänenspezifische Expertise unabdingbar. Nur dann kann der Data Scientist gemeinsam mit dem Fachbereich Fragestellungen ermitteln, die durch seine Modelle zu neuen und wertschöpfenden Erkenntnissen führen. Die im Bereich Data Science vorzufindenden Vorgehensweisen stellen zwar keine Informationsbedarfsanalyse im klassischen Sinn dar, doch sind die Funktionen und Effekte durchaus ähnlich.
Erst lange nachdem BI effektiv in den Unternehmen angekommen war und nachdem sich der Staub, der durch die ersten Einführungen und die damit verbundenen Herausforderungen aufgewirbelt worden war, gelegt hatte, wurden Themen wie die organisatorische Eingliederung von BI oder auch die hierfür notwendigen Rollen und Regeln diskutiert. Das Business Intelligence Competency Center, kurz BICC, das sich in unterschiedlichen Ausprägungen in zahlreichen Unternehmen durchgesetzt hat, ist eine Folge der Erkenntnis, dass man für eine koordinierte Steuerung der operativen und strategischen Prozessabläufe rund um BI ein ganzheitliches Konzept benötigt. Das BICC definiert die Rollen und Prozesse mit dem Ziel, die Entscheidungsfindung im Unternehmen nachhaltig zu verbessern.7
Data Science befindet sich diesbezüglich noch auf der Suche. Dennoch wird bereits deutlich, dass die Unternehmen verstärkt danach streben, Data Science mithilfe geeigneter Strukturen im Wertschöpfungsprozess zu etablieren. Ob am Ende dieser Suche ein erweitertes BICC stehen wird oder aber vollkommen neue Konzepte wie etwa ein ACC (Analytics Competence Center), kann aus heutiger Sicht noch nicht abschließend geklärt werden. Die Zeiten, in denen Data Scientists vollkommen unabhängig von den sonstigen am Produktivbetrieb beteiligten Fachabteilungen arbeiten konnten, quasi ihren eigenen Regeln folgend, dürften jedoch vorbei sein. Data Science wird zunehmend »industrialized«, also in den Produktivbetrieb integriert. Verschiedene organisatorische Konzepte werden dabei aktuell getestet. Vom Etablieren einer zentralen Data Science Unit im Unternehmen über das »Verleihen« von Data Scientists an Fachabteilungen bei Bedarf bis hin zum Aufbau einzelner Data-Science-Teams in den Fachabteilungen werden unterschiedliche Ansätze diskutiert. Es bleibt abzuwarten, welche Lösungsansätze sich bewähren werden. Sicher ist jedoch, dass es in diesem Umfeld mehr Regeln und mehr klar definierte Rollen geben wird als bisher.
Die vorangegangenen Punkte zeigen, dass sich Data Science/Advanced Analytics durchaus an den in der Business Intelligence gemachten Erfahrungen orientieren kann. Zahlreiche Parallelen legen dies nahe. Daher sollten sich die Unternehmen, die sich mit der Idee beschäftigen, Data Science zu nutzen, auf ihre BI-Erfahrungen besinnen, um auf diese Weise die Einführung und Nutzung effizient zu gestalten. Viele der kurz angesprochenen Aspekte werden im Verlauf des Buches in den folgenden Kapiteln noch vertieft.
»Where is the wisdom we have lost in knowledge?
Where is the knowledge we have lost in information?«
T. S. Eliot (1934)8
Bereits in diesem bekannten Zitat des Literaturnobelpreisträgers T. S. Eliot klingen die Beziehungen an, die 50 Jahre später von Ackhoff und anderen im sogenannten DIKW-Modell populär gemacht wurden. Dieses stellt die Zusammenhänge von Daten, Information, Wissen und Weisheit auf. Datenanalyse wird zwar schon seit Jahrhunderten betrieben, aber dennoch haben die konzeptionellen und technologischen Fortschritte der vergangenen 20 Jahre dem Bereich eine neue Bedeutung, eine neue Sichtbarkeit und natürlich eine neue Qualität ermöglicht.
Abb. 2–2Die klassische DIKW-Pyramide
Die Darstellung der DIKW-Hierarchie findet sich oft in Form einer Pyramide, womit vereinfacht gezeigt werden soll, dass die einzelnen Schichten aufeinander aufbauen und man stufenweise vorgehen muss.9 Die Komplexität der zu verwendenden Modelle nimmt dabei zur Pyramidenspitze hin zu. Die in vielen Darstellungen nicht zu sehende unterste Schicht stellt die reale Welt dar, die auf der nächsten Ebene über die Daten beschrieben wird. Den eigentlichen Datenlieferanten stellt also die reale Welt dar. Hier ist festzustellen, dass es in den vergangenen 20 Jahren massive Veränderungen gegeben hat. Die Anzahl der Datenquellen hat ebenso rasant zugenommen wie die Vielfältigkeit der Datenformate und die Geschwindigkeit, mit der die Daten generiert werden. Big Data ist daher einer der Katalysatoren für den Erfolg von Data Science. Die Unternehmen verfügen heute über viel mehr Möglichkeiten, geeignete Daten für die Datenanalyse zu verwenden. Dabei stehen sowohl interne als auch externe Daten in einer Granularität zur Verfügung, die zeitnahe und qualitativ hochwertige Auswertungen ermöglichen und für die Entscheidungsunterstützung oder gar eine Entscheidungsautomatisierung herangezogen werden können. Wie oben bereits erwähnt stehen darüber hinaus auch die notwendigen Werkzeuge in Form von Software (z.B. Frameworks wie Hadoop oder Spark) und Hardware (hier seien nur das Cloud Computing oder die Entwicklungen im GPU-Processing angesprochen) zur Verfügung, die praktisch ein »Data Science für jedermann« ermöglichen. Komplexe Operationen, deren Durchführung früher nur für eine sehr begrenzte Gruppe von Unternehmen möglich war, können heute praktisch von jedem Start-up realisiert werden.10 Da weder Daten noch Werkzeuge die Begrenzung darstellen, liegt diese jetzt im vorhandenen Know-how des Unternehmens.
Nach Mcafee und Brynjolfsson befinden wir uns im »Second Machine Age«. Dieses teilen die beiden Autoren in zwei Phasen ein. In Phase 1 des zweiten Zeitalters der Maschinen übernahmen Computer Routineaufgaben und lösten einen Produktiviätsschub in vielen Bereichen der Wirtschaft aus. Diese Phase 1 setzte gemäß den Autoren Mitte der 1990er-Jahre ein. Der Übergang zu Phase 2, in der die Maschinen lernen, wie sie selbst Problemstellungen lösen können, wird von Mcafee und Brynjolfsson auf den Beginn des zweiten Jahrzehnts dieses Jahrtausends gelegt. Sie sprechen hier von einer Initialzündung für die Phase 2 [Mcafee & Brynjolfsson 2018, S. 24 ff.]. Diese Initialzündung steht in engem Zusammenhang mit den oben beschriebenen Entwicklungen und dem damit verbundenen Durchbruch von Data Science in der Breite:
»Systeme maschinellen Lernens werden besser, je größer sie werden, wenn sie auf schnellerer und stärker spezialisierter Hardware laufen, Zugang zu mehr Daten bekommen und verbesserte Algorithmen enthalten. All diese Verbesserungen finden jetzt statt, deshalb entwickelt sich maschinelles Lernen rasant«
[Mcafee & Brynjolfsson 2018, S. 103].
Abb. 2–3Data-Science-Pyramide
Durch die oben beschriebene Entwicklung ist es den Unternehmen nun möglich, sich weiter in Richtung »Wisdom«, also der Spitze der Pyramide, vorzuarbeiten. Dabei lässt sich eine zweite Pyramide (vgl. Abb. 2–3) heranziehen, die verdeutlicht, dass es ähnliche Abhängigkeiten auch im Falle der Werkzeuge und Techniken gibt, die auf den jeweiligen Stufen zum Einsatz kommen.11 Je höher man diese Pyramide erklimmt, umso größer ist das Potenzial des Informationssystems für die Entscheidungsunterstützung. Steht zunächst das Aggregieren von Daten und die Bereitstellung von Reports im Mittelpunkt, um die Daten der verschiedenen Datenquellen zusammenzufassen, wird auf der nächsten Stufe die Datenexploration genutzt, um die Entscheidungsfindung zu unterstützen. Nach der darüberliegenden Stufe mit Machine Learning, auf der sich zahlreiche Unternehmen aktuell befinden, folgt dann die automatisierte Entscheidungsfindung, bei der der Human Factor quasi vollständig ausgeschaltet ist. In zahlreichen Bereichen wie etwa der Preisfindung oder der Beschaffung findet man solche Systeme bereits im Produktivbetrieb.12
Wenn ein Unternehmen die nächste Stufe der DIKW-Pyramide erklimmt, bedeutet dies, dass das Informationssystem neben den bereits vorhandenen Systemen neue integrieren muss, die das alte nicht ablösen, sondern ergänzen sollen. Daher ist es auch im Fall von Data Science notwendig, geeignete Strukturen nicht nur seitens der Organisation (Aufbau, Prozesse) zu schaffen. Auch hinsichtlich der Architektur des Informationssystems muss Entwicklungsarbeit geleistet werden.13
In den meisten Unternehmen steht im Zentrum des BI-Informationssystems nach wie vor ein auf einer relationalen Datenbank basierendes Data Warehouse, das über viele Jahre hinweg auf- und ausgebaut wurde. Trotz aller Entwicklungen über die vergangenen 10 Jahre rund um die Themen Big Data, NoSQL und verteilte Systeme ist davon auszugehen, dass diese traditionelle Umgebung der Informationssysteme mittelfristig bestehen bleiben wird. Daneben entwickelte sich auf der Basis der angesprochenen Themen und mit Data Science eine neue Welt, die in zunehmendem Maße ebenfalls wichtige Informationen generiert und Entscheidungen unterstützt.
Waren die beiden Welten jedoch bis vor wenigen Jahren noch architektonisch getrennt, wachsen sie derzeit immer stärker zu einem ganzheitlichen Analytics-Ökosystem zusammen. Dies ist auch die Folge einer zunehmenden Nutzung von Data Science im Produktivbetrieb. Data Science hat mittlerweile den Sprung aus dem Experimentierlabor herausgeschafft und etabliert sich verstärkt als wichtiger Bestandteil im System der Unternehmenssteuerung. Dabei dürfte auch die von der GI formulierte Unterscheidung zwischen BI und Big Data schon heute als überholt gelten. Die GI definiert als ein Unterscheidungsmerkmal:
»Business Intelligence Lösungen setzen auf traditionelle Datenbanksysteme wie relationale Datenbanken, wohingegen Big Data Lösungen auf neuen Konzepten wie zum Beispiel Not Only SQL (NoSQL) Datenbanken oder dem Hadoop Framework basieren […].«14
Quelle: Marschall/Baars (2017)
Abb. 2–4Die Pi-Architektur nach [Marschall & Baars 2017]
Mit den neuen Architekturen, die traditionelle BI-Systeme mit den neuen Ansätzen der Analytics-Welt vereinen, geht nicht nur die qualitative Verbesserung des Informationssystems einher. Ein weiterer im Unternehmensumfeld wichtiger Aspekt ist die Erhöhung der Agilität. Durch die Nutzung von Data Lakes als weiterer Datenhaltungskomponente oder Konzepten wie einem Data Vault können sowohl die bisherigen BI-Anforderungen als auch die neuen Analytics-Herausforderungen gemeistert werden. Ein klassisches Reporting wird ebenso unterstützt wie ein Stream Processing oder Data-Science-Analysen. Eine mögliche Ausprägung dieser neuen Architekturen ist in Abbildung 2–4 dargestellt. Marschall und Baars schlagen hierbei ein Enterprise Data Reservoir im Rahmen der von ihnen entwickelten Pi-Architektur vor [Marschall & Baars 2017]. Für Kelleher und Tierney stellt das existierenden Data Warehouse eines Unternehmens dabei eine natürliche erste Wahl als Datenquelle für Data-Science-Analysen dar. Die bereits bereinigte Datenbasis im Data Warehouse ist geeignet, um die Projektlaufzeiten für Data-Science-Projekte deutlich zu reduzieren:
»[…] a data warehouse is a powerful resource for data science. From a data science perspective, one of the major advantages of having a data warehouse in place is a much shorter project time. […] If a data warehouse is available in a company, then the effort and time that go into data preparation on individual data science projects is often significantly reduced.«
[Kelleher & Tierney 2018, S. 73]
Die angesprochenen neuen Architekturen führen zu einer hybriden Business Intelligence, die einerseits aus dem bekannten, in der Regel auf einem RDBMS beruhenden Teil besteht, der zumeist über die vergangenen 10–20 Jahre im Unternehmen aufgebaut wurde. Im Rahmen der Erweiterung des Informationssystems um moderne analytische Komponenten und Werkzeuge, bei denen vor allem die Nutzung von Data Science im Mittelpunkt steht, muss zu einem gewissen Zeitpunkt der Aufbau der oben skizzierten neuen Struktur erfolgen. Damit erhalten wir ein Informationssystem, das sich, in Anlehnung an HOLAP, als Hybrid BI bezeichnen lässt.15 Relationale und NoSQL-Datenbank koexistieren in dieser Struktur, die ein revisionssicheres Reporting ebenso ermöglicht wie agile Ad-hoc-Analysen oder das Arbeiten in Analytics Labs. Kelleher und Tierney sprechen in diesem Kontext auch von einer hybrid database:
»The hybrid database automatically balances the location of the data based on the frequency of access and the type of data science being performed.«
[Kelleher & Tierney 2018, S. 90]
Die Autoren veranschaulichen diese Idee am Beispiel einer Hadoop-Installation, die mit einem RDBMS gekoppelt ist. Obwohl ein Großteil der Daten im Hadoop-Cluster gehalten wird, stehen sie den Analysten über eine Virtualisierungsschicht jederzeit zur Verfügung.
Die Informationssysteme in den Unternehmen stehen aktuell vor großen Herausforderungen. Neben dem etablierten BI-System auf der Basis eines Data Warehouse etablieren sich neue analytische Werkzeuge, die immer wichtiger für die Unternehmenssteuerung werden. Vor allem Data Science wird zu einem wesentlichen Bestandteil eines analytischen Ökosystems werden, das sowohl die traditionelle BI als auch das neue analytische Portfolio enthalten muss. Dabei lässt sich zum einen feststellen, dass es Parallelen zwischen den aktuellen Entwicklungen und dem Beginn der BI-Einführungen Mitte der 1990er-Jahre gibt. Aus diesem Grund können und sollten die Unternehmen bei der Einführung und Nutzung von Data Science auf die in diesem Zusammenhang gemachten Erfahrungen zurückgreifen. Auf diese Weise kann der Aufbau und die Integration der neuen Werkzeuge, Strukturen und Abläufe effizienter gestaltet werden. Zum anderen muss das vorhandene Informationssystem mit der neu aufgebauten Analytik in einer ganzheitlichen, agilen und langfristig tragbaren Architektur abgebildet werden. Neben der von Zimmer in Kapitel 8 diskutierten Architektur wurde beispielhaft die Pi-Architektur von Marschall und Baars vorgestellt.
BI ist nicht tot, wie manchmal schon verkündet wurde. Aber die BI-Welt verändert sich gerade rasant, wird sie doch quasi fusioniert mit der Welt der Advanced Analytics, in deren Mittelpunkt Data Science steht. Die Unternehmen werden zumindest mittelfristig beide Bestandteile dieses neuen Informations- und Steuerungssystems benötigen. Damit gewinnt BI vielleicht sogar an Bedeutung, auch wenn wir möglicherweise eine Namensänderung zu Analytics beobachten werden.