Надежность и точность позволяют построить шкалы измерений или улучшить используемые с помощью классической теории тестирования. В этом контексте надежность понимается непосредственно: измерение является надежным, если его основную часть по отношению к погрешности составляет истинное значение. Оценивание надежности шкалы основано на корреляциях между индивидуальными позициями или измерениями, составляющими шкалу, и дисперсиями этих позиций. Показатель разброса некоторого множества результатов измерений вокруг среднего арифметического называется дисперсией, величина которой определяется по формуле:
где X – число правильно выполненных заданий N испытуемьши.
Каждое измерение (ответ на вопрос) включает в себя как истинное значение, так и частично не контролируемую, случайную погрешность. Для эффективного функционирования контрольно–оценочной системы необходимы высокая надежность и валид–ность педагогических измерений. Под надежностью понимают точность измерений, а также устойчивость результатов к действию случайных факторов. Тест считается надежным, если он обеспечивает высокую точность измерений, а также дает при повторном выполнении на той же выборке близкие результаты при условии того, что подготовка испытуемых не изменилась за время до повторного выполнения теста.
На протяжении десятилетий вопросы надежности исследовались многочисленными теоретиками и практиками в области педагогических измерений. Особо следует отметить работу R.L. Linn [241], в которой рассматриваются не только процедуры оценки надежности, но и методологические вопросы обоснования качества тестовых измерений. Его подход оправдан тем, что в требовании проверки теста на надежность реализуется важная идея методологического характера, связанная с неизбежностью ошибок измерения, порождаемых группой случайных факторов. В самой общей трактовке надежность тестов можно рассматривать как характеристику существующих различий между результатами педагогических измерений и истинными баллами испытуемых (подготовленностью) в той мере, в какой эти различия порождаются случайными ошибками измерения. В теории педагогических измерений ошибка трактуется как статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла ученика или студента.
Существование ошибки измерения закладывается и привносится в теорию педагогических измерений основными аксиомами классической теории тестов. К числу наиболее важных аксиом, закладывающих научный фундамент обоснования теории надежности тестов, можно отнести равенство:
X ik= T i+ E ik,
где X k – наблюдаемый результат i – го испытуемого выборки по тестовой форме k ; T i – его истинный балл; E ik – суммарная ошибка измерения при оценке i – го испытуемого с помощью k – й формы теста.
Использование аксиом и предположения о нормальном характере распределения статистик по тесту приводит к фундаментальному соотношению классической теории тестов, связывающему дисперсию наблюдаемых баллов S x 2 , дисперсию истинных баллов S т 2и дисперсию ошибок измерения S е 2согласно которому S x 2= S т 2+ S е 2,
где S x 2, в свою очередь, состоит из двух слагаемых, одно из которых – наиболее важная общая часть дисперсии, составляющая основу корреляционных и дисперсионных методов исследования качества теста, а другое – специфическая часть. Принято счи тать, что общая часть определяется различиями в подготовке испытуемых, в то время как специфическая часть дисперсии порождается различиями в содержании заданий теста. Разделив на S x 2почленно равенство, получим
S x 2/ S x 2 = S т 2 / S x 2 + S т 2/ S x 2 , или S т 2 / S x 2 = 1 – S е 2/ S x 2
где следует понимать как среднее арифметическое дисперсий ошибок для различных испытуемых из генеральной совокупности, поскольку ошибка при оценке истинного балла будет меняться для различных испытуемых группы.
Естественно предположить, что чем ближе S x 2к S т 2, тем выше корреляция между множеством наблюдаемых баллов X и множеством истинных баллов T и, следовательно, тем надежнее тест. Поэтому отношение S т 2/ S x 2= r нобычно трактуют как характеристику надежности теста.
Одним из способов вычисления надежности суммарной шкалы является разбиение суммарной шкалы случайным образом на две половины. Если суммарная шкала совершенно надежна, то следует ожидать, что обе части абсолютно коррелированы (т.е. r = 1,0). Если суммарная шкала не является абсолютно надежной, то коэффициент корреляции будет меньше 1. Можно оценить надежность суммарной шкалы посредством коэффициента Спирме–на—Брауна:
Читать дальше