Поиск статистически значимых теорий заменяется поиском значимых Р -значений. Такая подмена цели приводит к появлению сомнительных исследовательских практик: избирательности выводов, когда сообщается лишь о случаях, когда результаты «сработали», или исключению некоторых данных после изучения их влияния на результаты. Из примерно 2 тысяч психологов, принявших участие в исследовании, проведенном в 2012 году журналом Psychological Science , свыше 90 % признались в том, что хотя бы раз применяли одну или несколько сомнительных исследовательских практик. Столь существенный масштаб подмены, направленной на создание статистически значимых P- значений, оказывается более вредным для прогресса, чем редкие случаи откровенного мошенничества.
Одним из этих вредных результатов можно считать то, что вокруг нас бушует настоящий потоп опубликованных, однако невоспроизводимых результатов. Генетические и медицинские исследования на основе Больших данных постоянно сталкиваются с подобной проблемой, когда кто-то безуспешно пытается повторить опубликованные результаты.
Я не хочу выплескивать вместе с водой ребенка: статистика предлагает очень полезный инструментарий для исследователей. Однако пришло время избавиться от статистических ритуалов, приводящих к автоматическим и бессмысленным выводам. Ученым следует изучать ритуалы, а не следовать им.
Сила статистики
Эммануэль Дерман
Профессор кафедры финансового инжиниринга, Колумбийский университет; бывший руководитель группы количественных стратегий, отдел ценных бумаг компании Goldman Sachs; автор книги Models. Behaving. Badly («Модели. Которые. Плохо. Себя. Ведут»).
Я вырос в среде физиков, modus operandi которых предполагает наблюдение явлений, эксперименты с ними, разработку гипотез, теорий и моделей. Физики предлагают всё новые эксперименты и используют статистику для анализа результатов, чтобы сравнить свои умозрительные построения с реальностью. Статистика для физика – это просто инструмент для подтверждения или отрицания теории.
Однако в наши дни мир, и особенно мир общественных наук, почему-то влюбился в статистику и науку о данных как в источник знания и самой Истины. Кое-кто даже заявляет, что статистический анализ закономерностей придет на смену нашим традиционным методам познания окружающего мира – не только в области общественных наук и медицины, но также в области естественных наук.
Нам следует вести себя крайне осторожно, чтобы не слишком поддаться очарованию статистики и науки о данных и в результате отказаться от классических методов открывания истин о природе (а человек – это тоже часть природы).
Хорошим примером силы классического метода может считаться открытый Кеплером в XVII веке второй закон планетарного движения, который, в сущности, представляет собой не закон, а скорее наблюдение и описание некоторой закономерности. Второй закон Кеплера гласит, что линия (радиус-вектор), соединяющая Солнце и обращающуюся вокруг него планету, за равные периоды времени описывает равные площади. Эта глубинная симметрия планетарного движения означает в том числе, что чем ближе планета оказывается к Солнцу, тем быстрее она движется по своей орбите.
Однако обратите внимание, что между планетами и Солнцем на самом деле нет никаких линий .
Открытие Кеплера, до сих поражающее нас, потребовало изучения данных, полученных Тихо Браге, многочасовых размышлений, интуитивных прозрений – только вообразите себе эту невидимую линию! – а затем и проверки гипотезы. Информация, интуиция, построение гипотезы и, наконец, проверка ее фактами – это заслуженный и освященный временем процесс.
Второй закон Кеплера фактически представляет собой утверждение о сохранении углового момента, которое позднее было развито в ньютоновских теориях движения и гравитации. Теории Ньютона были приняты с такой готовностью потому, что из них можно было вывести три уже верифицированных закона Кеплера. Через 300 лет Джон Мейнард Кейнс сказал о Ньютоне так:
Я предполагаю, что своей исключительностью он обязан мускулам своей интуиции, самым сильным и выносливым, какими когда-либо был одарен человек.
Статистика – я имею в виду данную научную дисциплину – напоминает мне неприкаянного дикаря, обитающего в области где-то посреди между математикой и естественными науками. Статистика – это не язык, не наука, описывающая мир природы, а скорее, набор методов, предназначенных для проверки гипотез. Статистика сама по себе способна выявить лишь тенденции и примеры корреляции в прошлом и предположить, что они сохранятся и в будущем. Однако, как говорится в знаменитой фразе, неизвестно кому принадлежащей, «корреляция еще не означает причинно-следственной связи».
Читать дальше