получится близкой к нулю.
Таким образом, произведение ( X i – X̅ )( Y i – Y̅ ) по знаку и абсолютной величине отражает характер связи между наборами данных. Операция усреднения, осуществляемая путем деления суммы произведений отклонений на число испытуемых в выборке, позволяет получить показатель связи, не зависящий от размеров выборок, который называется ковариацией и обозначается символом . Его можно использовать для сравнения мер связи между результатами тестовых измерений по выборкам разного объема.
(6.4)
(Замечание, также как и в случае подсчета дисперсии, для различных прикладных задач в статистике удобнее делить не на N, а на N – 1, что при больших размерах выборок не сказывается существенно на величине S xy ) .
Для повышения сопоставимости оценок показателей связи по выборкам с различной дисперсией ковариацию делят на стандартные отклонения. Таким образом, S xy необходимо разделить на S x и S y , где S x и S y – стандартные отклонения по множествам X и Y соответственно. В результате после преобразований получается величина, которая называется коэффициентом корреляции Пирсона r xy :
(6.5)
При исследовании связи между наборами данных необходимо правильно выбрать вид и форму показателя, зависящих от шкал, в которых представлены данные (см. подробнее в книге: [7]). В частности, для оценки связи между результатами выполнения учащимися двух заданий теста коэффициент корреляции Пирсона r xy необходимо преобразовать, поскольку результаты выполнения заданий представляются в дихотомической шкале (столбцы из нулей и единиц в матрице данных по тесту). Преобразованный коэффициент Пирсона для дихотомических данных называется коэффициентом ц и вычисляется по формуле
(6.6)
где p jl – доля испытуемых, выполнивших правильно оба задания с номерами j и l , т.е. доля тех, кто получил 1 балл по обоим заданиям; p j – доля испытуемых, правильно выполнивших j -е задание, q j = 1 – p j ; p l – доля испытуемых, правильно выполнивших l -е задание теста, q l = 1 – p l .
Например, для рассматриваемого примера матрицы корреляция между результатами по 5-му и 6-му заданиям теста будет:
Результаты подсчета значений коэффициента корреляции между всеми заданиями для примера матрицы сведены в табл. 6.4.
Анализ значений коэффициента корреляции в табл. 6.4 позволяет выделить в категорию «плохих» 3-е и 8-е задания теста. Задание 3 отрицательно коррелирует с заданиями 7, 8, 9 и 10. О том, что «виновато» 3-е, а не другие задания теста, свидетельствует анализ значений коэффициента корреляции в столбцах с номерами 7, 9 и 10. В них просматривается только один минус на месте, соответствующем заданию теста 3, которое в свою очередь отрицательно коррелирует с четырьмя заданиями теста. Аналогичная ситуация наблюдается для задания 8. Отрицательные значения коэффициента корреляции указывают на определенный просчет разработчиков в содержании заданий, которые рекомендуется из теста удалить. Наиболее распространенная причина появления отрицательной корреляции – отсутствие предметной чистоты содержания – нередко встречается при разработке самых разных тестов.
Понятно, что предметная чистота – скорее, идеализируемое, чем реальное требование к содержанию любого теста. Например, в тесте по физике всегда встречаются задания с большим количеством математических преобразований, в тесте по биологии – задания, требующие серьезных знаний по химии, в тесте по истории – задания, рассчитанные на выявление культурологических знаний, и т.п. Поэтому можно лишь стремиться к тому, чтобы при выполнении каждого задания доминировали знания по проверяемому предмету.
Читать дальше