■ Schließen: Im Allgemeinen ist mittels der deskriptiven Statistik nur der Schluss auf die Stichprobe möglich, an der die Daten erhoben wurden; mittels Inferenzstatistik ist dagegen auch der Schluss von der Stichprobe auf die Grundgesamtheit möglich (u.a. Zufallsziehung vorausgesetzt). Die deskriptive Statistik kann die schließende Statistik allerdings ersetzen, und zwar dann und nur dann(!) , wenn es sich bei den Daten um eine Vollerhebung handelt, z.B. bei Daten einer Volkszählung oder auch um unternehmensinterne Kundendaten in einem DWH. In diesem Falle, und nur in diesem Falle(!) , kann auf die Inferenzstatistik verzichtet werden. Stammen die Daten aus einer Vollerhebung, ist jegliche deskriptive Statistik gleichzeitig auch eine Beschreibung einer (verfügbaren!) Grundgesamtheit; Inferenzschlüsse auf diese Grundgesamtheit sind somit nicht mehr erforderlich (dies kann auch Konsequenzen für die Wahl der Formeln haben). Nur in diesem Fall ist mittels der deskriptiven Statistik auch die Überprüfung von Hypothesen möglich (jedoch nicht im strikt inferenzstatis tischen Sinne). Bei einer Stichprobe beschränkt sich die Aussage also im Allgemeinen auf die beschriebenen Daten; bei einer Vollerhebung gilt die Aussage auch für die Grundgesamtheit ( weil die beschriebenen Daten die Grundgesamtheit sind ). An dieser Stelle eröffnet sich ein fließender Übergang zur konfirmatorischen Analyse, die in Form der Abweichung der Daten von einem Modell zwar einen Modelltest darstellt, jedoch keinen Hypothesentest im inferenzstatistischen Sinne.
■ Screening: Die deskriptive Statistik beschreibt die Daten, so wie sie sind. „as is“ wird in der IT oft dazu gesagt. Dies bedeutet auch, dass die deskriptive Statistik gegebenenfalls auch Fehler in den Daten erkennen lassen kann (vgl. Schendera, 2007). Was also an dieser Stelle hervorgehoben werden sollte: Die Funktionen des Aggregierens, Beschreibens, Heraushebens bzw. Schließens sind dieser Funktion als Priorität und in der Zeit nachgeordnet. Die beste Beschreibung nützt leider nur wenig, wenn sie noch auf fehlerhaften Daten beruht. Das Screening mittels deskriptiver Statistik ist also ein mehrfach durchlaufener Prozess: Am Anfang wird keine Qualität von Daten vorausgesetzt (sie wird jedoch überprüft) („vorläufige deskriptive Statistik“), sie sollte jedoch am Ende des Screenings geprüft und schlussendlich als gegeben vorliegen („finale deskriptive Statistik“).
■ Kommunikation von Vertrauen: Während die Funktion des Screenings ein iterativ durchlaufener Prozess ist, ist die resultierende Datenqualität am Ende dieses Prozesses auch ein Wert mit der Funktion des Kommunizierens von Qualität und Vertrauen in die Daten. Die Funktion dieses Wertes ist, dass sich Leser und Anwender auf Maßzahlen und Aussagen auf Basis der deskriptiven Statistik verlassen können.
■ Unterstützung der Datenanalyse und Inferenzstatistik: Die („finale“) deskriptive Statistik unterstützt die Datenanalyse (v.a. explorative und konfirmatorische Analyse) und die Inferenzstatistik in mehrerer Hinsicht: z.B. um (1) sich einen ersten Eindruck von Voraussetzungen der Daten (z.B. Verteilungsform) zu verschaffen, (2) z.B. deskriptive Statistiken zu erzeugen, die konfirmatorische oder inferenzstatistische Analysen nicht standardmäßig ausgeben, (3) ihre Daten und Analysen besser nachzuvollziehen, und (4) (ggf. unterstützt durch einen eher explorativen Zugang) letzten Endes zusätzliche Hinweise für das weiteres Vorgehen aufzudecken.
Die statistische Beschreibung mittels deskriptiver Statistik kann auf unterschiedliche Weise erfolgen:
■ Maßzahlen: Maßzahlen reduzieren die Information unübersehbarer Datenmengen auf wenige Zahlen, die bestimmte Facetten dieser Datenmenge möglichst gut beschreiben. Man kann sich das so vorstellen, dass eine einzelne Maßzahl nur eine „Perspektive“ auf die Daten ist, z.B. ihr Durchschnitt. Um nun die Daten auch aus anderen Blickwinkeln „betrachten“ zu können, werden daher mehrere Maßzahlen berechnet, z.B. auch ihre Streuung. Dadurch wird auch einem möglichen Informationsverlust durch die Datenreduktion vorgebeugt. Maßzahlen werden in Lage-, Streu- und Formparameter unterteilt, z.B. Mittelwert (MW) und Standardabweichung (SD).
Beispiel
Daten a: 2, 2, 2 MW = 2,0, SD = 0,0
Daten b: 1, 2, 3 MW = 2,0, SD = 1,0
Daten c: 0, 2, 4 MW = 2,0, SD = 2,0
■ Tabellen: Daten können in Tabellenform nonaggregriert (Rohdaten), aggregiert (z.B. Häufigkeitstabellen), kreuztabelliert oder hochverschachtelt wiedergegeben werden. Ist die gewählte Tabellenstruktur (z.B. uni-/multivariat und/oder ein-/mehrdimensional) der konkreten Datenverteilung angepasst, wird die Information großer Datenmengen überschaubar wiedergegeben, oft z.B. in Kombination mit Grafiken.
■ Grafiken: Daten können auch in grafischer Form als „fixierte Bilder“ wiedergegeben werden. Hier stellt der Forschungsbereich der visuellen Statistik bzw. der statistischen Visualisierung vielfältige Diagrammvarianten zur Verfügung, von nonaggregrierten, aggregierten, gruppierten bis hin zu uni-/multivariaten und/oder ein-/mehrdimensionalen Diagrammformen. Angefangen von Balken-, Kreis- und Liniendiagrammen bis hin zu Streu-, Bubble- oder Mosaik-Diagrammen, um nur einige zu nennen (vgl. 5.4).
■ Animationen: Daten können auch als „bewegte Bilder“ wiedergegeben werden. Der Phantasie sind hier keine Grenzen gesetzt: angefangen von animierten Standardgrafiken über Cockpits und Dashboards (v. a. für Unternehmen) bis hin zu (ggf. sogar in Echtzeit aktualisierten) Visualisierungen von Kunden-, Waren- bzw. Nutzungsströmen, die fast schon an Videoclips grenzen.
Empfehlungen, welche Darstellungsform den anderen vorgezogen werden können, lassen sich nicht allgemeingültig aussprechen. Die Übersichtlichkeit und damit auch ihr Informationsgehalt werden letztlich auch von der konkreten empirischen Verteilung und der Relevanz der jeweiligen Kenngrößen mitbestimmt. Die Kombination von Maßzahlen und Grafiken (Visualisierungen) gilt i. Allg. als das aufschlussreichste Vorgehen.
Was sind die Voraussetzungen einer erfolgreichen deskriptiven Statistik?
■ Daten: So banal das klingen mag, eine deskriptive Statistik ist nicht ohne Daten, also Werte, möglich. Die untere Datenmenge liegt je nach deskriptiver Maßzahl zwischen N=0 (z.B. Summe) und um N=5 (z.B. für bestimmte Verfahren aus der Zeitreihenanalyse). Nach oben gibt es keine Grenze außer der Leistungsfähigkeit des Analysesystems selbst. Metadaten, also Informationen über Daten, erleichtern die Arbeit mit Daten ungemein. Zu den Informationen zum Erheben bzw. Definieren von Daten gehören z.B. semantische Definitionen (inkl. Ein- und Ausschlusskriterien), Informationen zur Datenquelle (Ort, Anzahl) oder auch zum Erhebungsmodus (Kunden- bzw. Haushaltsbefragungen) usw. (vgl. Schendera, 2007, 393–395).
■ Vollständigkeit: Die deskriptive Statistik setzt die Vollständigkeit der zu beschreibenden Daten voraus. Damit ist nicht gemeint, dass Daten aus einer Vollerhebung stammen sollen, sondern dass alle Daten einer zu beschreibenden Stichprobe oder Vollerhebung auch tatsächlich vollständig vorhanden sind. Vollständigkeit ist eines der grundlegenden Kriterien für Datenqualität und damit auch für die deskriptive Statistik – vielleicht mit der Präzisierung, dass es sich dabei um die richtigen Daten handeln muss.
■ Datenqualität: Datenqualität ist die zentrale Voraussetzung für die deskriptive Statistik (i.S.e. „finalen deskriptive Statistik“). Deskriptive Statistik auf der Basis fehlerhafter Daten kann nicht hinreichend die gemessenen Entitäten beschreiben und kann einer (Selbst-)Täuschung gleichen. Datenqualität stellt sicher, dass sich Anwender auf Maßzahlen und Aussagen verlassen können. Auf Datenqualität wird einführend in Abschnitt 3.3und ausführlich in Kapitel 6 eingegangen.
Читать дальше