Der DurchführungsDurchführungsobjektivität- und AuswertungsobjektivitätAuswertungsobjektivität (nach Grotjahn 2006) wird gelegentlich eine „Interpretationsobjektivität“ (vgl. Schelten 1997) zur Seite gestellt. Gemeint ist, dass zwei verschiedene BeurteilerInnen „unabhängig voneinander aus dem gleichen Auswertungsergebnis den gleichen Schluss ziehen“ (Schelten 1997, 126). ObjektivitätObjektivität bedeutet bei der Durchführung, Auswertung und Interpretation von Tests Subjektivität zu reduzieren. bei der Durchführung, Ausführung und Interpretation von Klassen-/Schularbeiten bedeutet also, dass subjektive Theorien – wenn nicht ganz ausgeschlossen – so doch so weit wie möglich in den Hintergrund gedrängt werden.
Dlaska & Krekeler (2009) sprechen in Zusammenhang mit informeller Leistungsbeurteilung ( classroom assessment ) von „Gerechtigkeit“ (ebd., 44f.) anstelle von ObjektivitätObjektivität. Damit führen sie an, dass Lernende nicht benachteiligt werden bzw. diese sich nicht benachteiligt fühlen sollen (ebd., 43). Damit dieser Umstand gegeben ist, muss Gerechtigkeit ihrer Meinung nach vier Bereiche umfassen: (ausreichende) Transparenz, (schlüssige) Bewertung, (konsistente und übertragbare) Leistungsmessungen und eine (gültige) Interpretation der Testergebnisse. Somit ist „Gerechtigkeit“ oder „Fairness“ der allumfassende Begriff, dem Dlaska & Krekeler die anderen Testgütekriterien wie Reliabilität und Validität unterordnen. Sie führen einerseits Gründe an, warum in der Schule reliable Tests schwer zu erstellen sind, obwohl dies „wünschenswert“ wäre (ebd., 49), fordern aber andererseits eine gültige Interpretation der Testergebnisse in Bezug auf die Messintention ein (vgl. u.a. Hinger 2016b).
4.1.2 ReliabilitätReliabilität
Unter Reliabilität eines Tests versteht man die Zuverlässigkeit oder Konsistenz der Resultate, die er hervorbringt: „A reliable test is consistent in that it produces the same or similar result on repeated use“ (vgl. Jones 2012, 352). So ist eine konsistente bzw. genaue Bewertung dann gegeben, wenn z. B. bei einer Klassen-/Schularbeit oder einem Test ein und dieselbe Lehrperson bei wiederholt vorgenommener Bewertung immer wieder zu demselben (oder einem sehr ähnlichen) Ergebnis kommt (Intrarater-ReliabilitätIntrarater-Reliabilität) bzw. wenn verschiedene Lehrpersonen zu ein und demselben (oder einem sehr ähnlichen) Ergebnis kommen (Interrater-ReliabilitätInterrater-Reliabilität). Somit kann scorer objectivity scorer objectivity als wesentlicher Teilaspekt der Reliabilität betrachtet werden; Weir & Shaw (2005) sprechen in diesem Zusammenhang sogar von scoring validity (s. Abschnitt 4.1.3 zu Validität). LehrerInnen sollten bedenken, dass manche Aufgabenformate konsistente (stabile) Ergebnisse unterstützen. So ist ein geschlossenesgeschlossenes Aufgabenformat AufgabenformatGeschlossene und offene Aufgabenformate unterstützen Reliabilität in unterschiedlichem Ausmaß. wie etwa multiple choice - multiple choice-Aufgabe oder EinfachwahlaufgabenEinfachwahlaufgabe zur Überprüfung des Leseverständnisses durch die Festlegung eines eindeutigen Lösungsschlüssels gut dazu geeignet, dass ein und dieselbe Person mehrmals oder verschiedene BewerterInnen gleichzeitig zu demselben (oder einem sehr ähnlichen) Ergebnis kommen. AuswertungsAuswertungsobjektivität- und Interpretationsobjektivität können bei geschlossenen, standardisierten Aufgabenformaten wie multiple choice - oder ZuordnungsaufgabenZuordnungsaufgabe als gegeben angesehen werden. Wird hingegen die Fertigkeit Schreiben anhand eines Aufsatzes, der in der Fremdsprache zu einem bestimmten Thema verfasst werden soll, überprüft, lässt dieses offene Testformat bei der Bewertung und Interpretation einen höheren subjektiven Spielraum zu, vor allem, wenn nur ungenau spezifizierte Kriterien wie Inhalt, Fehler oder Stil zur Verfügung stehen oder wenn „jeder Lehrer seinen eigenen Maßstab zur Beurteilung des Auswertungsergebnisses“ anlegt (Schelten 1997, 127). Die reliable Verwendung von Bewertungsrastern zur Überprüfung der produktiven Fertigkeiten (s. Abschnitt 7.3) setzt gezielte rater trainings für LehrerInnen und SprachkompetenzprüferInnen voraus, in denen die Beurteilenden lernen, sich abzustimmen und sich großteils auf ein gemeinsames Verständnis der Deskriptoren, die die einzelnen Bewertungskriterien näher erläutern, zu einigen.
Bei Dlaska & Krekeler (2009, 35) findet sich ObjektivitätObjektivität als Teil der Reliabilität dem Qualitätskriterium Gerechtigkeit zugeordnet (s. oben). Dies ist vor allem dem Umstand geschuldet, dass eine möglichst objektive Durchführung und Auswertung eines Tests für eine konsistente, also reliable, Bewertung unabdingbar ist. Reliabilität wiederum ist Voraussetzung für die Validität (s. Abschnitt 4.1.3) – allein, ein reliabler Test bedeutet noch nicht, dass er auch valide ist (vgl. Jones 2012, 352). Nach Dlaska & Krekeler (2009, 47) ist die Qualität einer Bewertung abhängig von den PrüferInnen, ihren Fähigkeiten, Einstellungen und Werthaltungen. Für die Leistungsbeurteilung im Unterricht erachten sie Reliabilität aber nicht als zentral und fordern sie nur als Bedingung für standardisierte und formelle high stakes tests high stakes test ein – Tests, bei denen die Ergebnisse für jede/n einzelne/n KandidatIn gewichtige Folgen haben. Das Pilotieren von Klassen-/Schularbeiten zur Messung ihrer Qualität – sei es in Form von Paralleltests oder Testwiederholungen, um sich z. B. über den Schwierigkeitsgrad oder die Unmissverständlichkeit der Aufgabenstellung klar zu werden – ist im Schulalltag, wenn überhaupt, nur bedingt möglich. Eine Arbeit im Team würde allerdings der Qualität von Klassen-/Schularbeiten zuträglich sein – erhöht doch Arbeitsgenauigkeit die Reliabilität der Messung. Auch die Kenntnis der genannten Methoden ( parallel test method parallel test method und test-retest method test-retest method ) wäre geeignet, sich über die Konsistenz von Prüfungen klar(er) zu werden, denn auch Klassen-/Schularbeiten sollten über jene Qualität verfügen, die eine genaue(re) und konsistente Auswertung und Interpretation der Ergebnisse ermöglicht.
Salkind (2006) setzt Reliabilität mit Testqualität gleich, wenn konsistente Messungen garantiert sind1 – ein Ziel, dem sich Lehrpersonen auch im Schulalltag nähern könnten, wenn sie sich z. B. für das gemeinsame Ausarbeiten von TestspezifikationenTestspezifikationen (s. Abschnitt 5.3) entschließen und bereit sind, über die Fachteams oder -arbeitsgemeinschaften an den Schulen Tests (Klassen-/Schularbeiten) in Parallelklassen einzusetzen oder in vergleichbaren Jahrgängen auch an anderen Schulen durchzuführen.
Ein wesentliches Kennzeichen von Reliabilität ist der ReliabilitätskoeffizientReliabilitätskoeffizient, der den Grad der Messfehlerfreiheit eines Tests wiedergibt, oder der Wert der inneren Konsistenz ( internal reliability ) von Items – ermittelbar mithilfe eines Computer-Software-Programms wie SPSS (= Statistical Package for the Social Sciences ). Der Koeffizient drückt aus, dass die einzelnen Items eines Tests zueinander passen, dasselbe theoretische KonstruktKonstrukt (z.B. Leseverständnis) überprüfen und dass die einzelnen SchülerInnen auf die gleichen Rangplätze verwiesen werden (vgl. Fulcher & Davidson 2007, 106). Auch wenn LehrerInnen nicht über die zeitlichen und technischen Ressourcen verfügen, die innere KonsistenzInnere Konsistenz von Testitems ist Voraussetzung für das Messen eines Konstrukts. von Testitems zu ermitteln (wie z. B. in Green 2013, 35–40 dargestellt), so können sie doch eine Reihe von einfachen statistischen Maßnahmen ergreifen, die ihre Klassen-/Schularbeiten und Tests reliabler machen2. Neben einer präzisen und klaren Aufgabenstellung sind dafür u.a. die Testlänge (Anzahl der Items bzw. der Aufgaben), die Homogenität der Items, der Schwierigkeitsgrad der einzelnen Aufgaben sowie die Bandbreite der Aufgaben ( scope ), die Wahlmöglichkeiten eher ausschließt, ausschlaggebend (vgl. Green 2014, 73; Schelten 1997, 117).
Читать дальше