La autenticidad del proceso era impresionante para los chicos. Rara vez cuestionaban su precisión, y si un profesor o un estudiante, o la familia tenían dudas acerca de los resultados, siempre podíamos repetir la evaluación teniendo en cuenta sus comentarios. Tenían la oportunidad de cuestionar nuestras conclusiones y algunas veces incluso hacernos cambiar de opinión. Nos ofrecía a nosotros, como profesores, una oportunidad para entender de mejor manera los trabajos de otros y cómo nuestros estudiantes entendían su propio trabajo. El involucrar evaluadores externos, los padres y estudiantes más jóvenes también nos daban información útil para mejorar nuestro trabajo.
Era tan impresionante que, en retrospectiva, claramente debimos haber usado un método similar para pasar del sexto al séptimo grado, del octavo noveno y del decimos al onceavo. En estas ocasiones utilizamos un acercamiento menos riguroso y formal que estaba basado prácticamente en la misma idea, pero estaba apoyado principalmente en nuestras intuiciones individuales y menos en el diálogo abierto entre adultos observantes y los mismos estudiantes.
También era muy útil al final del doceavo grado la reflexión personal obligatoria que debían escribir como autoevaluación, sobre sus planes para la próxima fase de su vida e ideas sobre mejoras o cambios que estas prácticas necesiten (véase el capítulo tres). Esto no tenía ningún tipo de puntaje, pedir una oportunidad para que las familias, los estudiantes y los profesores reflexionaran en conjunto acerca de las formas en que cada uno podía ser de ayuda. Debimos haberlo empezado antes.
El hecho de que durante todo este proceso el juicio y la experiencia de los adultos era respetada y mostrada abiertamente a los estudiantes era un aspecto importante del diseño. Creíamos que les ayudaría en el futuro a ver que la adultez y la experiencia como algo altamente valioso –¡aunque no perfecto! Por esto no nos sorprendía cuando profesores universitarios y los encargados de admisión nos comentaban acerca de estas cualidades en nuestros graduados, cómo también de la facilidad que tenían para participar en discusiones con adultos.
Argumentos en contra de las pruebas estandarizadas de alto impacto
En retrospectiva, debimos haber sabido mucho antes que depender de pruebas estandarizadas de alto impacto para asegurar calidad en las escuelas, no era inevitable ni deseable. La historia de las pruebas estandarizadas al principio del siglo XX es un recordatorio de que la práctica debió haber sido criticada más profundamente desde antes. Por ejemplo, La falsa medida del hombre (The Mismeasure of Man, 1996), el tratado de Stephen Jay Gould sobre la historia de la craneología y los primeros intentos de realizar pruebas estandarizadas, debiese ser lectura obligatoria. Como lo presenta Gould, sicólogos tales como Alfred Binet y Lewis Terman empezaron el movimiento de las pruebas estandarizadas con pruebas de CI. Estas pruebas median la inteligencia de quien estaba siendo evaluado a partir, principalmente, de un número limitado de preguntas. De igual forma como los profesionales de la craneología afirmaban que sus evaluaciones de las cavidades de la cabeza medían supuestamente la inteligencia, estas nuevas pruebas fueron utilizadas para afirmar que las personas de piel negra o de piel morena que las rendían eran menos inteligentes que aquellos de piel blanca. Estos resultados han sido citados por movimientos eugenésicos como evidencia para discriminar racialmente en contra de nuevos inmigrantes. Esto por sí solo debería haber sido una señal de advertencia de que no serían apropiadas para ser utilizadas en escuelas. Pero se abrieron paso, alcanzado a un número de estudiantes cada vez mayor y siguieron mostrando que los estudiantes blancos recibían mayores puntajes que estudiantes de piel negra o morena. Esto a pesar de que se han realizado múltiples estudios sobre la precisión de las pruebas estandarizadas y se ha demostrado que estas poseen sesgos y efectos dañinos en decisiones de alto impacto ligadas a ellas.
Es importante considerar que las pruebas estandarizadas afirman medir el conocimiento de quien las rinde, pero están basadas en una muestra pequeña del conocimiento del evaluado y nunca en la totalidad de este. Entonces, ¿Cómo puedes saber si la muestra representa la total extensión de conocimiento? Nunca podrás saberlo, por lo tanto, los resultados de las pruebas, por definición, deben tener un amplio margen de error en el muestreo, incluso si asumimos que las preguntas en sí mismas no tienen un sesgo hacia las fortalezas particulares de algunas personas por sobre las de otras; midiendo conocimiento que no debiese ser medido, pero que los estudios han demostrado que sí está siendo medido.
FairTest, una organización que ha intentado monitorear la imparcialidad de pruebas desde 1985, ha notado que los puntajes del SAT 2presentan una correlación perfecta con la riqueza de la familia (FairTest, 2015). Había excepciones, pero no muchas. Cada US$20.000 de ingreso familiar era correlativo con puntajes más altos en la prueba (véase también Rampell, 2009). Varias organizaciones han continuado investigaciones del mismo tipo de las que yo conduje a mediados de los sesenta, cuando hacía clases en el Harlem Central. Estas organizaciones confirmaron una suposición que Jay Rosner de Princeton Review y su colega William Kidder (2002) harían décadas más tarde: los ítems que eran puestos en las pruebas estandarizadas habían sido experimentados en campo con niños reales. Cualquier ítem en el cual, por cualquier razón, niños de piel negra rendían mejor que los de piel blanca no era utilizado. Estos ítems eran considerados sicométricamente inválidos. Los ítems de la prueba eran presentados para que los puntajes se alinearan con la curva predicha de puntajes, con los niños que se sabía que tenían un mayor éxito en la escuela y en la vida en el extremo de arriba y viceversa para los niños de barrios de menores ingresos. Personalmente pude ver, mientras hablaba con los niños acerca de las respuestas, como funcionaba esto y me asombró la sutileza con la cual los ítems recogían las diferencias culturales y ambientales que se daban entre los dos grupos de niños.
Así que el uso continuo de pruebas estandarizadas para decisiones de alto impacto dentro y acerca de las escuelas continúa causando daño y una creciente cantidad de investigación lo ha demostrado (Au, 2007, 2009, 2011; Berliner, 2011; Giordano, 2005; Knoester & Au, 2015; Knoestes & Parkison 2017; Kohn, 2000; Meier, 2002; Meier & Wood, 2002; Nichols & Berliner, 2007; Sacks, 1999). La lista de razones por las cuales las pruebas estandarizadas no debiesen recibir el peso que se les otorga hoy en día es larga e incluye las siguientes:
1. Las pruebas les quitan las decisiones a las comunidades escolares, a los profesores y a los estudiantes. Aunque diferentes escuelas y profesores a menudo tienen diferentes misiones y énfasis, a todos se les exige que utilicen las mismas pruebas, para las cuales el contenido y los puntajes de corte no están determinados en un sentido democrático.
2. Enseñar para obtener mejores puntajes en la prueba tiene el efecto de reducir el currículum y el potencial para el crecimiento de los estudiantes en áreas que no están siendo evaluadas por la prueba.
3. Los resultados de las pruebas tienen una fuerte correlación con raza y clase y por esto proveen una justificación “científica” para las desigualdades raciales y de clase en la sociedad y en las escuelas.
4. Asignarle públicamente una nota a una escuela basada en los resultados de las pruebas, como hacen muchos estados, en conjunto con programas de libre elección de escuelas han demostrado exacerbar la segregación.
5. Las pruebas quitan tiempo de instrucción importante a los estudiantes y profesores, ya que estas pruebas no son evaluaciones auténticas . Para que una evaluación sea auténtica debe ser llevada a cabo mientras los estudiantes están realizando un trabajo que es intrínsecamente valioso y que vale la pena hacer.
Читать дальше