1 ...8 9 10 12 13 14 ...17
Analysedaten können sowohl in unternehmenseigenen Datenbanken gespeichert sein als auch, wie soeben festgestellt, aus zahlreichen externen Quellen stammen. Unternehmenseigene Daten sind heutzutage nicht mehr nur auf der Festplatte eines Rechners oder auf einem firmeneigenen Server gespeichert. Eine weitere Möglichkeit, die gerade in den letzten Jahren zunehmend an Bedeutung gewonnen hat, ist, die Daten über die Cloud als Speicherplatz im Internet abzurufen. Durch sog. Cloud-Plattformen können intern und extern verfügbare Daten auch miteinander verknüpft werden. Dabei besteht sowohl die Möglichkeit, bestehende Datenbanken mit externen Datenbanken zu verbinden und auf dem eigenen Speichermedium zu analysieren als auch der Weg, Analysen und Vorhersagen direkt in der Cloud und damit auf den dort gespeicherten Daten zu generieren.127
II. Verortung der Analyse-Software
Es existieren verschiedene Software-Konzepte für die Anwendung von Predictive Analytic. Die Analysen können zum einen über die Abspeicherung einer Software-Version auf den Rechnern und Servern des nutzenden Unternehmens generiert werden (sog. On-Premise-Lösung). Zum anderen kann die Software auch ohne Kopie auf dem eigenen Rechner über einen cloudbasierten Service eines externen Rechenzentrums (sog. On-Demand-Lösung) genutzt werden.128 Oft taucht hierfür auch der Begriff „Software as a Service“ auf. Die unmittelbare Analyse in der Cloud-Datenbank spart im Vergleich zu bisherigen Verfahren vor allem Arbeitsschritte. Vor der Entwicklung aktueller Software-Konzepte mussten Daten zunächst aus der sie speichernden Datenbank in eine separate Analyse-Software extrahiert werden, um dort dann analysiert werden zu können. Eine Weiterentwicklung stellte die später verwendete Methode dar, nach welcher die zu analysierenden Daten lediglich im Arbeitsspeicher eines Rechners gespeichert wurden (sog. In-Memory-Datenbanken) und in einem zweiten Schritt dort auch direkt analysiert werden konnten. Diese Methode ermöglichte höhere Geschwindigkeiten und wird ebenfalls noch von verschiedenen Anbietern angeboten.129 Bereits angesprochen wurde auch die zusätzliche Möglichkeit, Predictive Analytic-Software als Analysetool unmittelbar in ERP- oder CRM-Datenbanken zu integrieren oder auch in anderweitigen Datenbanken mittels sog. In-Database-Processing Analysen direkt auf den gepeicherten Daten zu generieren.
III. Strukturierung, Aufbereitung und Datenbewertung
Bevor Daten analysiert werden können, müssen sie in einem ersten Schritt einer Analyse zugänglich gemacht werden. Für eine breite Basis an Ausgangsdaten empfiehlt es sich, Daten unterschiedlichster Herkunft zu verwenden. Dies hat zur Folge, dass sowohl strukturierte als auch unstrukturierte Daten gemeinsam verarbeitet werden müssen. Nachdem eine Vielzahl der für Predictive Analytic verwendeten Daten unstrukturiert vorliegt,130 die meisten Datenanalyseverfahren aber nur strukturierte Daten akzeptieren, müssen diese zunächst aus ihren Quellen extrahiert werden.131 Dieser Aspekt macht den ersten erforderlichen Schritt auf dem Weg zu einer Vorhersage deutlich: die Daten müssen bearbeitet und einer einheitlichen Form zugeführt werden. Dieser Vorgang wird meist in einem eigenen Arbeitsgang den Analysen vorgelagert sein. Es existiert jedoch auch bereits Analyse-Software, die in der Lage ist, Daten unterschiedlichster Struktur zu vereinheitlichen und direkt im Anschluss zu analysieren.132 Es ist also durchaus möglich, den Schritt der Strukturierung und Aufbereitung der Daten in die Software zu integrieren, in der die Daten später analysiert werden.133 Der Prozess der Aufbereitung und Vereinigung von unterschiedlich strukturierten Datenquellen innerhalb einer Datenbank wird als ETL, stehend für „Extract, Transform, Load“, bezeichnet.134 Die Datenvorbereitung ist einer der zeitintensivsten Faktoren und kann bis zu 70-80 % der Arbeitszeit eines Data Scientists betragen.135
IV. Data Mining und Klassifizierung
Eine Möglichkeit, einen Nutzen aus großen Datenmengen zu ziehen, ist das sog. Data Mining. In der Literatur wird der Begriff Predictive Analytic häufig mit dem des Data Mining vermischt. Eine klare Abgrenzung wird vor allem dadurch erschwert, dass die Methodik des Data Mining oft ein wesentlicher Bestandteil einer Predictive Analytic ist.136 Das Erkennen von Zusammenhängen, Mustern und Korrelationen ist Voraussetzung einer jeden Predictive Analytic-Anwendung.137 Data Mining kann dabei eine wichtige Rolle spielen. Der Begriff lässt sich frei aus dem Englischen mit Daten-Bergbau übersetzen. Dieser sperrig anmutende Begriff erschließt sich historisch dahingehend, dass Daten vor dem digitalen Zeitalter schwer zu sammeln und zu verarbeiten waren.138 Bereits 1997 wurde unter der Bezeichnung CRISP-DM (Cross Industry Standard Process for Data Mining) ein Standardprozess für Data Mining entwickelt.139 Der Vorteil heutiger Datenanalyse-Verfahren liegt vor allem in der fortgeschrittenen Technik bei der Erfassung, Verarbeitung und Auswertung der Daten. Demzufolge ist die Größe der zu analysierenden Daten sowie die Anzahl der überprüften Muster nahezu unbegrenzt. Durch Data Mining können verwandte Strukturen erkannt und einander zugeordnet werden. Die Software erfasst in diesem ersten Schritt alle Daten und untersucht sie auf Ähnlichkeiten. Weisen sie gleichartige Merkmale auf, werden sie einer gewissen Gruppe (sog. Cluster) zugewiesen. Bereits auf dieser Stufe des Predictive Analytic-Prozesses können Erkenntnisse über die in einer Gruppe zusammengefassten Personen abgeleitet werden. So kann das in der TV-Branche praktizierte Clustering, welches Haushalte danach einteilt, welches Fernsehprogramm sie einschalten, bereits zu einer Erkenntnis über das durchschnittliche Alter dieses Haushaltes führen: Die einfache Einteilung danach, welches Programm in welchem Haushalt gesehen wird, kann schon ein Muster beinhalten. Dieses gilt es in einem nächsten Schritt auf die Zukunft zu übertragen. Erst mit diesem Schritt kommt die eigentliche Zielsetzung einer Predictive Analytic-Anwendung zum Tragen. Es wird versucht, mithilfe bekannter Muster, die als feste Variablen dienen, eine ungewisse Variable, mithin eine Vorhersage für die Zukunft, zu bestimmen. Die mithilfe von Data Mining erkannten Muster werden als allgemeinverbindliche Muster zugrunde gelegt, die auch neuen Situationen Stand halten sollen. Die besondere Fähigkeit der heute praktizierten Data Mining-Verfahren ist das intelligente und automatisierte Auffinden von Mustern in großen Datenmengen.140
V. Übertragung der Modelle auf neue Daten
Um eine vorausschauende Wirkung für die Zukunft zu entfalten, müssen die erkannten Muster auf jene Daten übertragen werden, über die letztendlich Erkenntnisse gewonnen werden sollen. Dies impliziert, dass die Muster sinnvollerweise mit Trainingsdaten entwickelt werden. Es gilt dann, diese getesteten und für gut befundenen Muster auf neue, dem System unbekannte Datenpools anzuwenden.
Der Schritt von der Entwicklung eines generellen Musters hin zu einem konkreten Modell kann mithilfe eines sog. Predictive Model erreicht werden. Ein solches vorhersagendes Modell ist nach Siegel , Initiator der Predictive Analytic World-Konferenz, ein Mechanismus, der das Verhalten einer Einzelperson vorhersagt oder, drastischer gesprochen, Auskunft darüber gibt, „ob sie klickt, kauft, lügt oder sterben wird“141. Ziel dieses Mechanismus ist die Ermittlung eines Wertes (sog. Score). Ausgehend von Charakteristika, die über eine Person gesammelt und ausgewertet werden, wird ein individueller Score ermittelt, der die Grundlage für die spätere Predictive Analytic im eigentlichen Sinne142 darstellt. Die für die Entwicklung eines Scores nötige Bewertung kann auf unterschiedlichen Wegen erfolgen: Eine einfache Möglichkeit ist die Gewichtung der einzelnen Charakteristika mit unterschiedlichen Punkten. Stark vereinfacht erklärt, bildet der Gesamtwert der berücksichtigten Kriterien dann die Grundlage der Vorhersage.
Читать дальше