Другое проявление той же проблемы наблюдается, когда разным экспертам приходится оценивать способности больших коллективов. Если аттестуемых слишком много, то и их делят на группы, и каждый человек имеет дело с разным составом судей. Возможно, один эксперт оценивает одно качество одного аттестуемого, а другой обращает внимание совсем на другое или же разным людям даются задачи разной степени сложности. Предположим, например, что вы хотите оценить квалификацию менеджеров проекта по тому, как они справятся с порученными им программами. Если таких менеджеров несколько, то вам потребуется не один судья. Экспертами могут стать непосредственные начальники аттестуемых менеджеров как люди, наиболее знакомые с их работой. Отметим, что проекты могут различаться по сложности. Предположим далее, что все менеджеры, независимо от того, какие проекты им поручены и кому они подчиняются, должны конкурировать за один фонд бонусов или за одни и те же карьерные места. Те, кого будет оценивать строгий судья или кому поручены более сложные проекты, окажутся в невыгодном положении по сравнению с другими. Сравнение разных менеджеров не будет инвариантным (то есть независимым от того, кто его проводит и по каким критериям). На самом деле, доминирующими решающими факторами, определяющими рейтинг проект-менеджеров, могут оказаться условия, не контролируемые ими.
Решение этой проблемы в 1961 г. предложил датский статистик Георг Раш [43] G. Rasch. On General Laws and the Meaning of Measurement in Psychology. Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press, 1980, p. 321–334.
. Он разработал метод предсказания вероятности того, что испытуемый правильно ответит на вопрос бинарного типа «верно/неверно» на основе 1) процента в генеральной совокупности других респондентов, ответивших на этот вопрос правильно, и 2) процента других вопросов, на которые данный испытуемый уже ответил правильно. Выполнение тестов человеком, не знакомым с предлагаемым набором вопросов, можно предсказать с погрешностью, поддающейся вычислению, даже если давать испытуемым разные тесты.
Во-первых, Раш рассчитал вероятность того, что случайно выбранный из группы человек ответит на вопрос правильно. Она просто равна доле тех, кто дал верный ответ, в общем числе ответивших на данный вопрос. Этот показатель называется у Раша уровнем трудности задания (item difficulty). Затем Раш рассчитал логарифм отношения вероятностей — натуральный логарифм отношения вероятностей правильного и неправильного ответов. Если трудность задания была 65 %, то это означает, что 35 % респондентов ответили правильно, а 65 % — неправильно. Отношение вероятности ответить правильно к вероятности ответить неправильно — 0,548, а натуральный логарифм 0,548 составляет —0,619. При желании можно записать следующую формулу в программе Excel:
=ln (A1/(1 — A1)),
где А1 — вероятность ответить правильно.
Затем Раш проделал ту же процедуру с вероятностью, что этот человек ответит правильно на любой вопрос. Поскольку данный респондент давал правильные ответы в 82 % случаев, соответствующий логарифм составил ln(0,82/0,18), или 1,52. Наконец, Раш сложил значения двух логарифмов и получил: (-0,619) + 1,52 = 0,9. Чтобы снова преобразовать это в вероятность, можно записать следующую формулу в Excel:
= 1/(1/exp(0,9) + 1).
В результате получится 71 %. Это означает, что есть 71-процентная вероятность того, что данное лицо ответит на этот вопрос верно, учитывая трудность задания и правильность его ответов на другие вопросы. При большом числе вопросов и (или) большом числе испытуемых мы обнаружим следующее: когда вероятность получить правильный ответ (уровень трудности задания) 70 %, около 70 % людей ответят на этот вопрос верно; когда вероятность получить правильный ответ (уровень трудности задания) 80 %, около 80 % людей ответят на данный вопрос верно, и т. д. Таким образом, модели Раша — просто еще один способ калибровки вероятностей.
Мэри Лунц из чикагской компании Measurement Research Associates Inc. применила модели Раша к решению важной задачи в области общественного здравоохранения, порученной ей Американским обществом клинической патологии (American Society of Clinical Pathology). Использовавшийся этим обществом ранее порядок сертификации патологов давал большую погрешность, которую необходимо было уменьшить. Каждый кандидат должен был разобраться в одном или двух случаях, и каждый его ответ оценивался одним или несколькими экспертами. Практически невозможно одному эксперту оценить все задания, как невозможно гарантировать, что все они будут одинаковой сложности. Раньше получение кандидатом сертификата почти целиком зависело от того, какой экзаменатор ему попадется и какой случай придется разбирать на экзамене. Иными словами, снисходительные экзаменаторы могли пропустить некомпетентных кандидатов. Лунц рассчитала стандартные очки Раша для каждого эксперта, экзаменационного задания, а также кандидата для всех уровней квалификации.
Читать дальше