(4) Многие экономисты отказались от модели бесконечных дисперсий, предполагая, что этот термин означает «бесконечное среднее отклонение». Это печально, но это так. Когда великий Бенуа Мандельброт предложил 50 лет назад свою модель бесконечной дисперсии, экономисты испугались именно из-за этого отождествления.
Очень печально, что такая мелочь может привести к столь значительному замешательству. Наши научные инструменты слишком сильно опередили нашу повседневную интуицию, и это превращается в большую проблему. Поэтому я хотел бы завершить свой рассказ заявлением сэра Рональда Фишера: «Статистик не может уклониться от обязанности понимать процесс, который он применяет или рекомендует».
Но связанные с вероятностями проблемы в общественных науках и в биологии на этом не заканчиваются – имеется еще бо́льшая проблема с исследователями, которые используют статистические понятия без их осмысления, бездумно бросаясь терминами, принимая случайности за информацию и информацию за проявление частного случая.
Большинство таких ученых оперируют в своих статьях, публикуемых в «престижных» журналах, понятием регрессии, даже не зная, что означает этот термин и какие выводы он позволяет (и не позволяет) делать. Поскольку должная проверка реальностью (а также подлинная заинтересованность в научном результате) отсутствует, а сам процесс исследования подернут дымовой завесой «изощренной сложности», ученые, занимающиеся общественными науками, позволяют себе элементарные ошибки в работе с вероятностью, однако при этом продолжают процветать в профессиональном смысле.
Статистическая независимость
Барт Коско
Профессор кафедры электротехники, Университет Южной Калифорнии; автор книги Noise («Шум»).
Науке пришло время отказаться от фантазий, связанных со статистической независимостью.
Мир в огромной степени объединяется причинно-следственными связями. Достаточно вспомнить, что одна лишь гравитация определенным образом связывает все объекты, обладающие массой. Утверждение, что статистическая корреляция еще не подразумевает каузальности, принято считать трюизмом. Однако математический факт состоит в том, что статистическая независимость не предполагает вообще никакой корреляции. Тем не менее множество событий достаточно часто коррелируют друг с другом. Главный принцип большинства алгоритмов Больших данных заключается в том, чтобы выявить эту корреляцию в еще бо́льших наборах данных.
Статистическая независимость лежит также в основе большинства современных техник статистической выборки. Порой она оказывается частью самого определения «случайная выборка». Именно на нее опираются доверительные интервалы старой школы, использующиеся в опросах на политические темы и в некоторых медицинских исследованиях. Она даже лежит в основе моделируемых наборов данных, которые все чаще приходят на смену этим старомодным техникам.
Белый шум – вот на что похожа звуковая картина статистической независимости. Шипение, хлопки и хрипы, характерные для подлинного белого шума, статистически независимы друг от друга. И в этом смысле неважно, насколько образцы шума отстоят друг от друга во времени. Это означает лишь то, что частотный спектр белого шума является постоянно плоским. В реальности такой процесс невозможен, поскольку он потребовал бы бесконечной энергии. Однако это не помешало целым поколениям ученых и инженеров исходить из предположения, что белый шум загрязняет сигналы и коммуникации.
Реальные образцы шума не являются независимыми. В какой-то степени они коррелируют между собой. Даже тепловые помехи, затрудняющие работу электронных схем и радаров, имеют лишь условно плоский частотный спектр и ограничиваются лишь частью спектра. У реального шума нет ни плоского спектра, ни бесконечной энергии. Поэтому на самом деле «белый» шум может быть метафорически «окрашен» в розовый, коричневый или какой-то иной цвет, в зависимости от степени корреляции между его образцами. Реальный шум не является и не может являться белым.
Возникающая здесь проблема заключается в том, что для оценки статистической независимости существует не так уж много тестов. Большинство из них в лучшем случае говорят нам, являются ли две переменные (а не сами данные) независимыми. И большинству ученых было бы нелегко даже просто перечислить эти тесты. Поэтому наиболее распространенная практика заключается в том, чтобы предположить, что взятые для изучения события независимы. Допустим, что некие данные «белые». Представьте, что эти данные не только взяты не из одного распределения вероятностей, но и статистически независимы. Ученые легко оправдывают такую позицию тем, что так поступают почти все и про это написано в учебниках. Подобное предположение может считаться одним из самых широко распространенных примеров группового мышления в мире науки.
Читать дальше