1 ...7 8 9 11 12 13 ...17
Vor einer näheren Betrachtung der haftungsrechtlichen Auswirkungen fehlerhafter Predictive Analytic soll der nachfolgende Teil die technischen Grundlagen eines Predictive Analytic-Verfahrens vermitteln. Dabei wird vor allem auf die Funktionsweise und die im Hintergrund einer Predictive Analytic ablaufenden Prozesse eingegangen.
I. Daten als Ausgangsbasis
1. Interne Datenquellen
Die für Predictive Analytic verwendbaren Daten können aus unterschiedlichsten Quellen stammen.109 Sie können unternehmensintern erhoben und gespeichert worden sein, wie es bei Kundendaten oder Informationen über den Ablauf eines Geschäftsabschlusses der Fall ist. Datenbestände wie Stammdaten haben dabei den Vorteil, dass sie ihre Gültigkeit über einen längeren Zeitraum meist nicht verändern.110 Zu typischen Stamm- bzw. Kundendaten zählen Vor- und Zuname, Geschlecht, Geburtsdatum und damit das Alter, Wohnort sowie weitere Kontaktdaten wie die Telefonnummer und Email-Adresse. Unternehmen dokumentieren auch den Ablauf eines Geschäftsabschlusses, also Informationen über die Art des geschlossenen Vertrages, Abschlussdatum, beteiligte Parteien, besondere Vereinbarungen etc. Daneben können gerade bei online agierenden Unternehmen Bestands-, Nutzungs- und Inhaltsdaten einen Großteil der Datengrundlage ausmachen, die durch das Surfen des Einzelnen im Internet entstehen.111 Diese Datenkategorie gibt einen tiefen Einblick in das Verhalten eines Kunden, ist einfach zugänglich und bietet sich deshalb für Analysen an.
Neben internen Unternehmensdaten besteht eine breite Auswahl an externen Datenquellen, die in Ergänzung zu eigenen Daten für Analysen verwendet werden können. Zu diesen externen Datenquellen zählen zunächst alle Daten, die außerhalb des Unternehmens erhoben und gespeichert wurden und zwar unabhängig davon, ob sie frei zugänglich sind oder ein anderes Unternehmen diese für sich in Anspruch nimmt. Bei nicht öffentlich zugänglichen Datenquellen ist es inzwischen üblich, dass diese durch einen Datenankauf erschlossen werden können. Die Vielfalt externer Bezugsquellen ist in den letzten Jahren zudem enorm gestiegen und stellt beinahe grenzenlose Möglichkeiten dar, die eigenen Daten mit externen zu ergänzen.112 Der Zugang zu Daten führt zu einem regelrechten Wettkampf um diese.113
3. Öffentlich zugängliche Daten
Daneben existiert eine Vielzahl öffentlich zugänglicher Daten wie Namen, Anschriften und Telefonnummern, die als Datensätze verwendet werden können. Diese werden aus allgemein zugänglichen Datenbanken extrahiert und finden in dieser Form Eingang in bestimmte Analysen.114 Verwendet werden können auch Daten, die in sozialen Medien wie Facebook , Twitter und Co. von dem Betroffenen selbst eingestellt und frei geteilt wurden.115 Mit der Nutzung von Daten aus sozialen Medien beschäftigen sich auch immer mehr eigens hierfür entwickelte Programme.116 Es existieren ebenfalls bereits Lösungen, die versuchen Informationen wie Bonitätsauskünfte, Handelsregisterauszüge und Presse-Informationen aus freien Datenbanken automatisch zu integrieren.117 Es muss in der Folge davon ausgegangen werden, dass theoretisch jede Art von Daten, die etwas über eine Person aussagt, verwendet werden kann und auch verwendet wird.
Generell gilt bei Predictive Analytic die Annahme, umso mehr Daten der Analyse zugrunde gelegt werden, desto bessere Ergebnisse können generiert werden.118 Dies lässt sich anschaulich am Beispiel der Erstellung eines Kundenprofils aufzeigen. Umso umfassender das Profil eines bestimmten Kunden werden soll, desto breit gefächerter und detaillierter sollten auch die über ihn verwendeten Daten sein. Für ein umfassendes Kundenprofil werden neben Einkommen, Beruf und Familienstand deshalb auch der Standort des Kunden, sein Bildungsgrad und die persönlichen Vorlieben berücksichtigt.119 Der zugrunde gelegten Datenmenge und -größe sind aufgrund der fortgeschrittenen Rechenkapazitäten neuartiger Analyseverfahren kaum Grenzen gesetzt. Viele Predictive Analytic-Anwendungen sind deshalb auch im Stande Big Data, also große Mengen an strukturierten und unstrukturierten Daten, zu verarbeiten.120 Wie viele Daten in eine vorhersagende Analyse einfließen, liegt jedoch immer in der Entscheidung des Predictive Analytic-Anwenders. Das führt zu der wichtigen Unterscheidung, dass Predictive Analytic zwar mit Big Data generiert werden können, dies jedoch nicht zwingend ist. Predictive Analytic können auch ohne Verwendung von Big Data eingesetzt werden und auch mit einer überschaubaren Anzahl von Datensätzen Mehrwert für ihre Anwender bieten.
Für Predictive Analytic können sowohl Daten verwendet werden, die sich direkt oder indirekt auf eine natürliche Person beziehen, als auch solche, die keinerlei Bezug zu einer Person entfalten. Letztere können entweder vormals personenbezogene Daten sein, die in anonymisierter Form der Analyse zugrunde gelegt werden,121 als auch solche, die von vorneherein keinen Personenbezug aufweisen, wie z.B. allgemeine Verkaufszahlen, Wetterdaten oder auch Maschinendaten für Predictive Analytic zur vorhersagenden Wartung. Der Aussage, Predictive Analytic sei eine Mustererkennung, die ausschließlich auf nicht-personenbezogenen Daten beruhe, ist dagegen nicht zuzustimmen.122 Zwar werden gerade im Zeitalter von Big Data häufig massenhaft generierte Daten verwendet, die oftmals keinen Bezug zu einer einzelnen Person aufweisen. Die Verwendung von personenbezogenen Daten ist dadurch jedoch nicht ausgeschlossen. Von dieser Erkenntnis zu trennen ist die Möglichkeit, auch aus nicht-personenbezogenen Daten ein neues, personenbezogenes Datum zu erstellen. Selbst bei der Verwendung ausschließlich nicht-personenbezogener Daten kann das Ergebnis einer Predictive Analytic Rückschlüsse auf einzelne Personen ermöglichen. Deshalb hat die Aussage, wonach eine Predictive Analytic in der Lage sei, ein neues personenbezogenes Datum zu schaffen, durchaus ihre Berechtigung.123 Veranschaulicht werden kann diese Art der Datengenerierung durch die Predictive Analytic der Supermarktkette Target in den USA.124 Die zu Marketingzwecken generierte Vorhersage, nach der eine bestimmte Kundin mit hoher Wahrscheinlichkeit schwanger war, bestätigte sich im Nachhinein. Das Bestehen einer Schwangerschaft ist ohne Zweifel ein personenbezogenes Datum. Dieses wurde im Target -Fall aber nicht durch die Kundin selbst Preis gegeben, sondern durch die Predictive Analytic erstellt. Die Predictive Analytic war damit in der Lage, im Ergebnis ein neues personenbezogenes Datum herzustellen.
Für Analysen verwendbare Daten können sowohl strukturierter als auch unstrukturierter Natur sein. Strukturierte Daten sind oftmals Kunden- und Stammdaten, die durch das Unternehmen selbst erhoben und gespeichert wurden. Sie werden nicht selten direkt durch den Kunden in dafür vorgesehene Formulare eingegeben und dann in Form eines relationalen Datenbanksystems in Zeilen und Spalten in die Unternehmensdatenbank abgelegt.125 Ein Großteil der Analysedaten liegt dagegen nicht in einer derart aufbereiteten Form vor, sondern muss erst strukturiert werden, bevor die Daten einer Analyse zugänglich sind. Dies ist der Fall bei Daten, die aus öffentlich zugänglichen Datenbanken stammen sowie bei Emails, Blogs, Feeds aus sozialen Netzwerken oder Daten, die von Geräten oder Sensoren generiert werden. Es darf davon ausgegangen werden, dass unstrukturierte Daten heute den größeren Anteil an Unternehmensdaten darstellen.126
Читать дальше