1 ...6 7 8 10 11 12 ...17
Beispiel
Darstellung der Ziffernfolge „1000“ und „10“ in verschiedenen Zahlensystemen:
Zahlensystem |
„1000“ |
„10“ |
Dezimal |
1000 |
10 |
Hexadezimal (ASCII) |
3E8 |
A |
Dual-Binär |
1111101000 |
1010 |
Wissenschaftliche Notation |
1,00E+03 |
1,00E+01 |
Römisch |
M |
X |
Umgekehrt stellen dieselben Ziffernfolgen in verschiedenen Zahlensystemen meist verschiedene Zahlen dar. „1000“ im dual-binären System bedeutet z.B. 8 im Dezimalsystem. Im Zweifel lohnt es sich nachzufragen, in welchem Zahlensystem die Daten abgelegt sind. Dass Daten ausschließlich im Dezimalsystem abgelegt sind, ist nicht selbstverständlich, z.B. in der Informatik. (Lateinische) Buchstaben können demnach durchaus auch für Zahlen im Dezimalsystem stehen.
Was sind nun Buchstaben? Mehrere Buchstaben (oder auch nur einer) stellen Texte (allgemeiner: Zeichen, Codes) dar, um Bedeutungen bzw. Information zu vermitteln. Die Gesamtheit aller Buchstaben bildet wiederum ein Alphabet einer Sprache; eine Menge an Buchstaben bildet (in zunehmender Länge geordnet) Zeichen, Zeichenketten oder auch Texte. Mehrere Zeichen können Zeichenketten bilden, mehrere Zeichenketten wiederum Texte. Der Einfachheit halber wird in diesem Buch der Begriff „String“ für einzelne oder mehrere Zeichen, also für Zeichen oder Zeichenketten verwendet. Wie an den Zeichen im Hexadezimalsystem zu erkennen, können Strings ausschließlich aus Buchstaben bestehen, z.B. der Code „A“ für 10 oder auch aus Buchstaben mit Ziffern gemischten Zeichenfolgen bestehen, z.B. „3E8“ für 1000. Strings können i. Allg. annähernd beliebige Zeichen (einschließlich Zahlen) enthalten. Groß- und Kleinbuchstaben („X“ vs. „x“) werden dabei als verschiedene Buchstaben interpretiert, was bei bestimmten Operationen, z.B. dem Sortieren, dazu führen kann, dass Groß- und Kleinbuchstaben unterschiedlich verarbeitet werden. Beim Sortieren können (z.B. je nach Sortierschlüssel) kleingeschriebene Strings (z.B. „string“) je nach Software vor oder auch hinter großgeschriebene Strings (z.B. „STRING“) sortiert werden. Strings werden je nach Software als eigener Datentyp interpretiert und auch als alphanumerisch, „Character“ oder „Text“ bezeichnet.
Werte
Werte unterscheiden sich von Zahlen dadurch, dass bei ihnen ein Referenzsystem hinzukommt, in anderen Worten: ein Messvorgang und eine Maßeinheit. Zahlen können für sich alleine stehen, z.B. bei rein mathematischen Operationen. Bei reinen Additionen, wie z.B. 1 + 1 = 2, kann ohne Weiteres auf eine Maßeinheit verzichtet werden. Werte sind dagegen das Ergebnis einer in Zahlen („quantitativ“) gemessenen bzw. zugeschriebenen Eigenschaft einer definierten Entität. Nicht Zahlen, sondern erst Werte erlauben Zustände, Unterschiede oder auch Veränderungen innerhalb eines Referenzsystems zu beschreiben. Erst die Beziehung Referenzsystem-Messung-Messwert ermöglicht es, Zahlen nicht nur auszuwerten, sondern als (Mess-)Werte auch zu verstehen. Eine der ersten Fragen, die sich ein Data Analyst bei der Beschreibung von Daten stellen sollte, ist: In welcher Einheit sind diese Zahlen und wie sind sie zu interpretieren? Die Einheiten und Hinweise zur korrekten Interpretation sollten in Metadaten, Projektdokumentation oder zumindest in Spaltenüberschriften von Datentabellen hinterlegt sein. Man stelle sich z.B. die Bundesligatabelle ohne Überschriften vor. Data Analysten, die keine Erfahrung mit Fußballkenn werten haben, werden vermutlich erst einmal fluchen: Sie verlieren Zeit, da sie sich auf die Suche nach einer Dokumentation, anstelle der eigentliche Analyse der Daten machen müssen. Etwas extremer wäre es übrigens bei Tabellen der englischen Premier League, hier sind diese Daten (z.B. Tore, Punkte usw.) zusätzlich nach Heim- und Auswärtsspiel unterteilt. Eine Tabelle sollte eigentlich selbsterklärend sein, ist es aber leider nicht immer.
Beispiele, bei denen eine deskriptive Statistik von Daten ohne Einheiten (also reine Zahlen) geradezu hochgradig riskant sein kann, sind z.B. Währungen, KPIs, medizinische Dosierungen, oder auch psychometrische Skalenwerte (z.B. IQ). Bei dosiskritischen Medikamenten ist z.B. die genaue Einheit einer Zahl unbedingt zu beachten. Dieselbe Zahl kann bei unterschiedlichen Einheiten völlig verschiedene Dosen bedeuten, z.B. 15 mg (=1,5ml) im Vergleich zu 15 ml (150 mg) (vgl. Schendera, 2007, 212). Erst wenn Maßeinheit, Messvorgang und Referenzsystem geklärt sind, können Werte beschrieben und interpretiert werden.
Beispiel
Werte in verschiedenen Referenzsystemen:
Beispiel |
Referenzsystem |
Maßeinheit und Beispiele für Werte |
Physik |
Gewicht |
kg, gr |
|
Länge |
km, m, mm |
|
Zeit |
yyyy, mm, dd; h, m, s; Kalendertage. |
Finance |
Währungen:Euro, Dollar |
€, $ |
|
Ratings: |
|
|
Moody’s, Fitch, S&P |
Caa1, CCC+, CCC (long-term, „substantial risks“). |
Psychometrie |
Stanford-Binet: IQ Intelligenz-Struktur-Test: für 15–60-Jährige: I-S-T 2000R, für 15–25-Jährige: I-S-T 2000 Schweizer Version: IST 2000R CH |
Testwerte pro Modul bzw. Skala. Beispiel: 60 ist das Maximum der Skala „Numerische Intelligenz“. |
Medizin |
Body-Mass-Index |
BMI |
|
Blutdruck (systolisch, diastolisch) |
mm Hg |
|
Dosierungen, z.B. Insulin |
IE bzw. i.e. (Internationale Einheit). |
Anders ausgedrückt: Erst wenn Maßeinheit, Messvorgang und Referenzsystem geklärt sind, können Zahlen anhand von Ziffern beschrieben und als Werte interpretiert werden. Was als selbstverständlich erscheint, ist es nicht: Die NASA verlor z.B. sogar einen Satelliten, weil die einen Ingenieure mit metrischen Einheiten arbeitete, die anderen jedoch mit englischen Einheiten. Dazu später mehr.
Gerade bei der Analyse von Daten internationaler Unternehmen ist auch auf das korrekte Format von Kalenderdaten zu achten. Es gibt derzeit mindestens drei, die europäische (TT.MM.JJJJ), die internationale (JJJJ.MM.TT) und die amerikanische Datumskonvention (MM.TT.JJJJ). Berechnungen (z.B. Differenzen) auf der Basis nicht korrekt interpretierter Kalenderdaten führen zwangsläufig zu fehlerhaften Ergebnissen. Diese Konvention ist dabei nicht der einzige Fallstrick; dazu kommen die Stellen der Jahresangabe, der Interpunktion, eine uneinheitliche zeitliche Granularität und natürlich auch allgemeine Datenfehler (z.B. Schendera, 2007, 62–66).
2.3 Messniveau einer Variablen: oder: Was hat Messen mit meinen Daten zu tun?
„Wir müssen jetzt mit dem Boden auf den Füßen bleiben.“
Jürgen Röber
Der Inhalt von Datentabellen besteht nicht nur aus Zahlen, Ziffern und Werten, die Daten besitzen auch ein Messniveau. Was bedeutet das für mich? Daten sind immer das Resultat von Messungen. Messungen können auf unterschiedlichen Niveaus vorgenommen werden. Das Messniveau ist wichtig . Das Messniveau sagt mir,
■ wie viel und welche Information (z.B. anhand welcher Maße) ich aus den Daten herausholen kann,
■ welche Aussagen ich mittels der deskriptiven Statistik treffen kann (und welche nicht),
■ welche Grafiken und Tabellen zur Visualisierung infrage kommen (und welche weniger geeignet sind) und zu guter Letzt,
Читать дальше