Однако стоит вам открыть любой журнал по психологии, бизнесу или нейробиологии, и вы наверняка увидите на его страницах массу примеров P- значений. Вот лишь несколько иллюстраций. В 2012 году среднее количество P- значений, приведенных в Academy of Management Journal , главном прикладном журнале в области управления, составляло в среднем 116 на статью (в диапазоне от 19 до 536)! Вы можете подумать, что такова специфическая особенность науки менеджмента. Тогда скажу, что 89 % всех поведенческих, нейропсихологических и медицинских исследований с участием добровольцев, результаты которых были опубликованы в 2011 году в журнале Nature , сообщили лишь о P -значениях – и даже не рассматривали такие понятия, как величина эффекта, доверительные интервалы или максимальное правдоподобие.
Ритуал представляет собой коллективную или индивидуальную церемонию, состоящую из действий, совершаемых в заранее предписанном порядке. Обычно он включает в себя некие священные числа или цвета, нежелание подумать о том, почему вы вообще совершаете те или иные действия, а также страх наказания за то, что вы перестанете их совершать. И все эти свойства в полной мере присутствуют в нулевом ритуале.
Слова «5 процентов» тоже считаются священными, поскольку предполагается, что именно эта величина позволяет нам увидеть разницу между реальным эффектом и случайным шумом. В ходе исследований в области функциональной магниторезонансной томографии числа заменяются цветами, и мозг на мониторе прибора расцвечивается всеми красками.
Масштаб распространения этой бредовой идеи поражает. Если бы психиатры хотя бы немного уважали статистику, то наверняка включили эту аберрацию в «Руководство по диагностике и статистическому учету психических расстройств». Исследования, проведенные в США, Великобритании и Германии, показывают, что большинство исследователей вообще не понимают (или не хотят понимать), что такое P- значение. Они путают его с вероятностью гипотезы или с каким-то другим обманчивым понятием – таким как вероятность репликации данных. В ведущих научных журналах можно встретить потрясающие примеры подобных ошибок. К примеру, для того чтобы выяснить, различаются ли между собой два средних значения, мы должны протестировать степень их различия. Однако при этом не следует сравнивать каждое из этих средних значений с какой-то общей точкой отсчета (например, вот так: «Нейронная активность повысилась у испытуемых, прошедших обучение ( Р < 0,05), но не в контрольной группе ( Р > 0,05)». В 2011 году в Nature Neuroscience был опубликован анализ неврологических статей в журналах Science, Nature, Nature Neuroscience, Neuron и The Journal of Neuroscience . И если в 78 статьях со статистикой все было в порядке, то в 79 были описаны некорректные процедуры.
Отказ от следования ритуалу может вызывать немалую тревогу, даже когда в этом ритуале нет особого смысла. В одном исследовании (имена авторов в данном случае не имеют значения) пользователей интернета спрашивали, есть ли разница между героизмом и альтруизмом. Подавляющее большинство респондентов (2347 человек, 97,5 %) ответили «да»; лишь 58 сказали «нет». Что же сделали авторы с этой информацией? Они рассчитали распределение хи-квадрат, вычислили, что c 2(1) = 2178,60, что P < 0,0001, и пришли к поразительному выводу, что на самом деле «нет» сказало больше людей, чем «да».
Один из признаков обсессивно-компульсивного расстройства – ритуал компульсивного мытья рук, даже если в этой процедуре нет никакой необходимости. Аналогичным образом исследователи, придерживающиеся нулевого ритуала, постоянно делают статистические выводы, даже в ситуациях, когда это не нужно, – например, когда у нас нет случайной выборки из общей совокупности или когда мы в принципе не дали никакого определения этой совокупности. В таких случаях мы вообще не можем применять статистическую модель с участием случайной выборки из общей совокупности и вместо нее используется описательная статистика. Поэтому даже если вам удается рассчитать статистически значимое Р -значение, совершенно неясно, о какой общей совокупности идет речь.
Проблема состоит не в статистике, а в ее ошибочном использовании как автоматической машины для создания выводов.
И наконец, подобно тому как обсессивно-компульсивное расстройство и бесконечное мытье рук могут ухудшать качество жизни, стремление рассчитывать статистически значимые P- значения может подрывать качество исследований. Это выражается следующим образом.
Читать дальше