Было бы еще больше оснований утверждать это, если вы протестировали бы тот же ген (или зеленые конфетки из желе) двадцать раз и получили статистически значимый результат только в одном случае.
Но что если двадцать типов конфеток были бы протестированы двадцать раз двадцатью разными исследовательскими группами в двадцати разных лабораториях? В девятнадцати лабораторий не обнаружено статистически значимого воздействия, поэтому исследователи не пишут научные работы по полученным результатам – кто станет публиковать сенсационную новость о том, что зеленые конфетки из желе не имеют никакого отношения к состоянию вашей кожи? Ученые из двадцатой лаборатории (везунчики) обнаруживают статистически значимое воздействие, поскольку им повезло – но они не знают , что им повезло. Все, что они могут сказать, так это то, что они всего один раз проверили гипотезу «зеленые конфетки из желе вызывают прыщи», и она прошла тест на статистическую значимость.
Если вы принимаете решение, какого цвета конфетки можно есть, только на основании опубликованных работ, вы совершаете ту же ошибку, что и армейские чиновники, которые подсчитывали пробоины только на самолетах, вернувшихся после воздушных боев. Как отметил Абрахам Вальд, если вы хотите получить правдивую картину происходящего, необходимо принять во внимание и те самолеты, которые не вернулись .
Это так называемая проблема архивного ящика: в той или иной области науки формируется крайне искаженная картина доказательств в пользу гипотезы, когда широкое распространение полученных данных ограничено порогом статистической значимости. Но мы уже дали этой проблеме другое название. Речь идет о балтиморском брокере. Везучий ученый, который взволнованно готовит публикацию по теме «Связь между зелеными конфетками из желе и дерматологическими проблемами», напоминает наивного инвестора, который отдает все свои сбережения жуликоватому брокеру. Этот инвестор, так же как и ученый, видит только результаты одного эксперимента, по воле случая завершившегося успешно, но ничего не знает о гораздо более многочисленной группе неудавшихся экспериментов.
Однако здесь есть одно существенное различие. В науке нет нечистых на руку мошенников и невинных жертв. Когда члены научного сообщества отправляют результаты неудавшихся экспериментов в архив, они играют и ту и другую роль. Они совершают мошенничество по отношению к самим себе .
И все это при условии, что ученые, о которых идет речь, ведут справедливую игру. Но так бывает не всегда. Помните проблему пространства для маневра, из-за которой попали в ловушку искатели библейских кодов? Ученые, которые вынуждены публиковать свои работы, чтобы не разрушить научной карьеры, могут не устоять перед соблазном того же пространства для маневра. Если вы проводите собственный статистический анализ и получаете p -значение 0,06, вы должны сделать вывод, что ваши результаты статистически незначимы. Однако, чтобы отправить результаты многих лет работы в архив, требуется высокая психологическая устойчивость. В конце концов, разве данные об этом конкретном участнике экспериментального исследования не выглядят несколько подозрительными? Если это резко отклоняющееся значение, может быть, стоит попытаться удалить эту строку из таблицы данных. Был ли учтен возраст? Были ли учтены погодные условия? Был ли учтен возраст и погодные условия? Если только вы позволите себе слегка подправить и завуалировать результаты статистической проверки полученных данных, во многих случаях вам удастся снизить p -значение с 0,06 до 0,04. Профессор Пенсильванского университета Ури Саймонсон, ведущий ученый в области изучения проблемы воспроизводимости результатов исследований, называет эту практику « p -хакингом» {127} [142]. Хакинг p -значения бывает, как правило, не таким грубым, каким я его здесь представил, и редко происходит по злому умыслу. P -хакеры искренне верят в истинность своих гипотез (как в случае искателей библейских кодов), а когда вы верите во что-то, легко обосновать, что анализ, который дает пригодное для публикации p -значение, – это именно то, что вам и следовало сделать с самого начала.
Однако все знают, что на самом деле это неправильно. Когда ученым кажется, что их никто не слышит, они говорят о своей практике: «Пытаем данные, пока они не сознаются». Следовательно, достоверность результатов соответствует тому, что можно ожидать от признаний, полученных силой.
Читать дальше
Конец ознакомительного отрывка
Купить книгу