Bei der Anwendung metaanalytischer Techniken ist auch zu berücksichtigen, dass psychologische Forschung in den letzten Jahren zunehmend wegen der geringen Replizierbarkeit einiger Befunde in die Kritik geraten ist. In deutlich mehr als 90 % der publizierten psychologischen Studien werden die postulierten Effekte tatsächlich empirisch nachgewiesen (Yong, 2012). Das spricht für einen systematischen Selektionseffekt: Studien, bei denen keine signifikanten Effekte gefunden werden, werden oftmals nicht veröffentlicht (publication bias), so dass in der Literatur mit einer überrepräsentativ hohen Zahl positiver Befunden zu rechnen ist. Dies erklärt unter anderem auch, wieso ein substanzieller Anteil empirischer Forschungsbefunde in der Psychologie nicht repliziert, d. h. in wiederholenden Untersuchungen nicht erneut nachgewiesen, werden kann (Open Science Collaboration, 2015). Bei Metaanalysen wird daher die tatsächliche Größe eines Effekts mit hoher Wahrscheinlichkeit überschätzt. Lösungsansätze für diese sogenannte Replikationskrise werden unter anderem in einer größeren methodischen Transparenz der Forschungsprozesse (z. B. durch die Präregistrierung von Studien), sowie der Auseinandersetzung mit der statistischen Validität (
Abschnitt 3.2.4) der Untersuchungsergebnisse gesehen (Simmons et al., 2011).
3.2.3 Das Setting schulpsychologischer Forschung: Labor vs. Feld
Die naturwissenschaftliche Tradition psychologischer Forschung liegt in der Durchführung von Laborexperimenten, die nach wie vor wesentlicher Bestandteil psychologischer Grundlagenforschung sind. Laborexperimente zeichnen sich dadurch aus, dass die Datenerhebung in einem standardisierten Rahmen erfolgt. Mit Ausnahme der expliziten Manipulation einer oder mehrerer unabhängiger Variablen sind die Versuchsbedingungen für alle Versuchsteilnehmenden gleich, so dass der Einfluss situationsbedingter Störvariablen gering gehalten wird. Das hat wesentliche Vorteile, denn nur so kann präzise der Einfluss einzelner Variablen auf ein bestimmtes Verhaltens- oder Erlebensmuster untersucht werden. Das Laborsetting hat allerdings wenig mit dem zu tun, was Menschen in ihrem Alltag erleben. Dadurch sind Laborergebnisse nur bedingt auf das »wahre Leben« übertragbar (vgl. Paluck & Cialdini, 2014).
Besonders in einer anwendungsorientierten Teildisziplin wie der Schulpsychologie stellt dies eine erhebliche Einschränkung dar. Daher sollten Laborergebnisse im Rahmen von Felduntersuchungen überprüft werden. Findet man also beispielsweise im Laborsetting heraus, dass ein bestimmtes Selbstregulationstraining Schülerinnen und Schülern dabei hilft, konzentrierter an ihren Schulaufgaben zu arbeiten, bleibt offen, ob dieser Trainingseffekt auch noch in einem natürlichen Setting wie einem Klassenzimmer mit 25 weiteren Kindern Bestand hat.
Die Überprüfung von Laborergebnissen im Feld bildet so einen wichtigen Baustein im Sinne eines »full-cycle«-Vorgehens psychologischer Forschung (vgl. Mortensen & Cialdini, 2010). Hierzu gehört auch, dass bereits bei der Festlegung der Untersuchungsgegenstände enger Kontakt zum Feld gesucht wird, um abzuschätzen, welchen Effekten Akteure im Feld überhaupt ausgesetzt sind. Enger Kontakt zu Akteuren im Feld kann darüber hinaus auch die erfolgreiche Implementation von Felduntersuchungen erleichtern.
Bei der Rezeption wissenschaftlicher Forschungsergebnisse müssen wissenschaftliche Beiträge kritisch reflektiert und beurteilt werden. Zu den Kriterien für eine solche kritische Reflexion gehören die klassischen Gütekriterien Objektivität, Reliabilität und Validität von Erhebungen oder Testverfahren. Die Objektivität eines Testverfahrens zeigt an, inwiefern das Messergebnis unabhängig von der untersuchenden Person ist, wohingegen Reliabilität die Messgenauigkeit eines Messinstrumentes bzw. Testverfahrens bezeichnet. Schließlich gibt die Validität Auskunft darüber, ob der Test tatsächlich das Merkmal misst, was er zu messen vorgibt, d. h. ob die durch die Messung erzeugten Daten auch das zu messende Konstrukt repräsentieren. Neben diesen sog. Hauptgütekriterien können auch Nebengütekriterien – wie Testfairness, Ökonomie und andere – von Bedeutung sein (vgl. Hasselhorn & Gold, 2017, Kap. 7.4).
Auch Forschungsdesigns mit ihren Auswertungsstrategien lassen sich hinsichtlich des Gütekriteriums der Validität beurteilen. Campbell und Stanley (1963) unterscheiden insgesamt vier Validitätsarten.
Die interne Validität betrifft die kausale Interpretierbarkeit eines Zusammenhangs zwischen einer Einflussgröße (UV, z. B. ein bestimmtes Treatment) und der jeweils interessierenden AV, also den inhaltlichen Kern der Forschungsfragen. Kann z. B. ein beobachteter Unterschied zwischen den Interventionsgruppen ausschließlich auf das Treatment oder auch auf andere Faktoren zurückgeführt werden? Lässt sich die Variation in der AV auf die Variation der UV zurückführen? Ist nur die UV und nicht sonstige Störfaktoren für die Variation der AV verantwortlich?
Generell lässt sich in Laboruntersuchungen eher eine hohe interne Validität sicherstellen als in Felduntersuchungen. Tabelle 3.1 gibt Beispiele für Gefährdungen der internen Validität (
Tab. 3.1).
Tab. 3.1: Beispiele für Gefährdungen der internen Validität (nach Shadish et al., 2002, S. 55)
GefährdungenErläuterung
Die externe Validität betrifft die Verallgemeinerbarkeit gefundener Ursache-Wirkungszusammenhänge über Variation von Personen, Situationen, Operationalisierungen der Treatments oder Messoperationen der UV. Die externe Validität adressiert daher die Frage, ob sich das Ergebnis der durchgeführten Studie auf weitere Personen, Situationen und Zeiten generalisieren lässt. Die externe Validität ist in Laboruntersuchungen gegebenenfalls eingeschränkt und kann durch ergänzende Felduntersuchungen gesichert werden. Beispiele für Gefährdungen der externen Validität finden sich in Tabelle 3.2 (
Tab. 3.2).
Die Konstruktvalidität bezieht sich darauf, ob ein Erhebungsverfahren geeignet ist, das
Tab. 3.2: Beispiele für Gefährdungen der externen Validität (nach Shadish et al., 2002, S. 55)
GefährdungenErläuterung
interessierende Merkmal zu erfassen. Repräsentieren die konkreten Realisierungen von UV und AV tatsächlich die theoretisch zugrundeliegenden Variablen? Die Konstruktvalidität bezeichnet also die Validität von Schlüssen von der konkreten Umsetzung in einer Studie auf theoretische Konzepte (higher-order concepts). Grundsätzlich werden zwei Bestandteile der Konstruktvalidität unterschieden: die konvergente und die diskriminante Validität. Die konvergente Validität bezeichnet das Ausmaß, in dem das gewählte Messverfahren das misst, was ein bereits etabliertes Messverfahren zum interessierenden Konstrukt erfasst. Die diskriminante Validität gibt an, wie gut sich die Messung mit dem gewählten Erhebungsverfahren von anderen Konstrukten (z. B. ADHS-Symptomatik und oppositionellem Trotzverhalten) unterscheidet. Konstruktvalidität betrifft neben der Erfassung der UV und AV gleichfalls Personen und Setting der Untersuchung. Tabelle 3.3 gibt Beispiele für mögliche Gefährdungen der Konstruktvalidität (
Tab. 3.3).
Читать дальше