Однако для медицины и биологии проблема, описанная Иоаннидисом, стоит чрезвычайно остро. В этих областях науки избежать сложных взаимодействий настолько трудно, что ученые прибегают к пробным исследованиям, “ориентированным на открытие”, а не начинают свою работу с отчетливого формулирования гипотезы. Такой подход прямо располагает к ложным открытиям – когда на первый план совершенно безосновательно выдвигают случайно полученные результаты. Суть проблемы заключается в произвольной природе установления граничных значений значимости, которые и обозначают как p-критерии. При величине p-критерия меньше 0,05 результат считается статистически значимым, и многие ученые просто рабски привязаны к этой величине. Но p-критерий никогда не предназначался для того, чтобы быть истинной мерой качества или тем более идеала! Биолог Рональд Фишер предложил этот критерий в двадцатые годы как удобный статистический признак того, что полученные данные заслуживают внимания [61].
В то время движение за математическую строгость статистики как раз набирало силу, и возглавляли его заклятые конкуренты Фишера польский математик Ежи Нейман и английский статистик Эгон Пирсон. Нейман и Пирсон формализовали такую концепцию как статистическая сила, но проигнорировали инновации Фишера. Нейман отвергал некоторые новшества Фишера как “в математическом смысле худшие, а не просто бесполезные”, а Фишер называл методы Неймана “ужасными для интеллектуальной свободы”. Остальные статистики, устав от междоусобной распри пионеров, объединили оба подхода. Правило Фишера просто внедрили в системы Неймана и Пирсона, и таким образом p-критерий получил ту важность, на которую вообще-то он никогда и не претендовал.
Это объединение привело к злоупотреблениям и недоразумениям; некоторые исследователи, глубоко зарывшись в данные, начинают наудачу искать статистически значимые зависимости, не думая об осмысленности таких связей и не оценивая, являются ли они обоснованными или чисто случайными. Член Королевского общества Дэвид Колкухоун уже давно раскритиковал тех, кто практикует такие вещи, точно и кратко заметив: “Функция теста на значимость заключается в том, чтобы уберечь вас от выставления напоказ собственной глупости, а не в том, чтобы сделать непригодный к обнародованию результат подходящим для публикации”. Был предложен даже весьма подходящий акроним для обозначения такого прочесывания данных – “Проверка статистической значимости гипотезы” ( Statistical Hypothesis Inference Testing , SHIT). Без знания механизмов действия или основополагающих принципов относиться к корреляциям надо с осторожностью. Простое просеивание через сито статистики всевозможных тестов в надежде обнаружить post hoc значимых данных обычно действительно дает результат – правда, он чаще вводит в заблуждение, чем предоставляет полезную информацию. Как однажды заметил экономист Рональд Коуз, “если достаточно долго пытать данные, то они в конце концов признаются”. Вот только вряд ли такие данные будут надежными.
Итак, почему же все-таки ученые публикуют недостаточно обоснованные и спорные данные? Отчасти из-за того, что статистическая некомпетентность поражает не только неученых любителей. Но есть и другой, более удручающий фактор, базирующийся на иных мотивах: пристрастное отношение к публикациям и давление, оказываемое на ученых. Научные журналы редко склонны считать, что отрицательные результаты заслуживают публикации, а это вынуждает исследователей искать и находить связи между явлениями, рискуя тем, что они окажутся ложными. Такую политику журналов можно и нужно считать недальновидной. Отсутствие результата столь же ценно для наших знаний, как и значимо положительный результат. Намного полезнее знать, что данное лекарство не работает, чем прочитать в журнале неверное утверждение о том, будто оно эффективно.
Хуже того – в последнее время научное сообщество поразил тяжкий недуг, суть которого можно выразить известной максимой “публикуйся или умри”. Дело в том, что если ученый публикует мало положительных результатов, то его работу могут перестать финансировать – вознаграждение за количество в ущерб качеству грозит всем нам. По этой причине надо очень настороженно относиться к единичным исследованиям, особенно в области медицины и в других сферах, где более охотно рассматривают не механизмы, а корреляции. Статистически значимый результат еще не говорит о том, что он (результат) “реален”, и об этом надо всегда помнить.
Читать дальше