Что же устанавливается при сопоставлении результатов по двум половинкам теста (способ расщепления)? Более всего оснований считать, что так устанавливается надежность самого теста как диагностического инструмента. Несомненно, что следует считать надежным только тот тест, который состоит из однородных и притом равно трудных задач. Оценка успешности работы испытуемых выводится из общего числа правильно выполненных ими заданий. Если тест отвечает своему назначению как диагностический инструмент, то можно полагать, что в любой из произвольно выбранных его половинок испытуемый должен правильно выполнить примерно одинаковое число задач. Правильность этого предположения исследователь проверяет, вычисляя коэффициент корреляции между результатами, показанными испытуемыми по двум половинкам теста.
А сравнение результатов, показанных испытуемыми при первом и втором, повторном, тестировании имеет совсем другой смысл. Оно говорит о том, насколько устойчиво, стабильно то свойство психики (функция, умение, способность и пр.), для диагностирования которого был применен тест. Оставим пока открытым вопрос о том, чем объясняется устойчивость или изменчивость диагностируемого свойства. Важно, что коэффициент корреляции, вычисляемый в этом случае, указывает на степень стабильности диагностируемого свойства. Об этом будет свидетельствовать сохранение каждым испытуемым своего порядкового места в выборке (в рангах или в сигмальных единицах) при первом и повторном применении теста через определенный промежуток времени.
В такой интерпретации ясно обнаруживается, что разные способы установления надежности относятся по существу к разным объектам. При вычислении коэффициента между результатами, показанными в каждой из двух половинок теста, устанавливается надежность самого теста, при вычислении того же коэффициента между результатами первого и второго испытания устанавливается стабильность диагностируемого свойства.
Весьма возможно, что невысокая надежность теста самого по себе (способ сравнивания половинок) окажет неблагоприятное воздействие и на результаты как первого, так и повторного испытаний. Поэтому следует заранее позаботиться о том, чтобы такое воздействие было устранено или сведено к минимуму. Для этого нужно соблюдать естественную очередность установления надежности: сначала нужно проверить надежность теста, добиться путем устранения ненадежных задач надлежащего его качества, как измерительного инструмента, а затем переходить к установлению надежности диагностируемого свойства.
Что же касается способов установления надежности теста, заключающихся в сопоставлении двух параллельных или эквивалентных форм-вариантов, то выводы из таких сопоставлений скорее можно понять как аргумент в пользу психологической значимости единого принципа, положенного исследователем в основу создания того и другого варианта теста. Принцип проверяется путем сравнения результатов успешности испытуемых, выполнявших две подготовленные исследователем формы или два варианта теста. С точки зрения применения теста эти способы естественнее всего толковать как изучение возможности взаимозаменяемости вариантов теста. Но сколько-нибудь убедительного ответа на вопрос о надежности каждого из вариантов эти способы, по-видимому, не могут дать. О неопределенности выводов, получаемых при сопоставлении двух форм или вариантов теста для установления надежности, пишут и авторы «Стандартных требований…» (Standards for Educational and Psychological Test, 1974). Поэтому, по крайней мере до тех пор, пока не будет предложено новых толкований этих способов, применение их для установления надежности представляется необоснованным.
Выше было сказано, что способ разделения теста на две половины позволяет охарактеризовать надежность самого теста как диагностического инструмента, а способ повторного тестирования дает материал для суждения о надежности (или стабильности) исследуемого свойства психики. Употребление слов «надежность теста и надежность свойства психики» не должно маскировать важнейшей специфической черты психологических тестов – их результаты, итоги работы испытуемых всегда являются продуктом взаимодействия испытуемого (со всеми присущими ему к моменту испытания особенностями) и ситуации психологического испытания. Здесь испытуемому представляется тест с его конкретной наполненностью: словами, рисунками, заданиями, требующими логико-перцептивных действий, от выполнения которых зависит успешность его работы. Надежность теста и надежность (стабильность) диагностируемого психического свойства не существуют «вообще», они всегда выступают как продукт контакта конкретной ситуации испытания с конкретными выборками и совокупностями испытуемых. На первый взгляд высказанные суждения кажутся ненужной тривиальностью – каждому ясно, что никак по-другому получить сведения о надежности нельзя. Однако следует принять во внимание специфические, укоренившиеся у неосведомленных людей мнения о тестах, чтобы согласиться с тем, что дополнительные разъяснения по этому пункту не окажутся лишними.
Читать дальше
Конец ознакомительного отрывка
Купить книгу