Теперь важная таблица, поясняющая смысл употребления жаргона «сигма» в самых разных контекстах. Сверху — отклонение от центра распределения х ов единицах σ , снизу — вероятность того, что случайная величина выйдет за этот предел (в любую сторону).
σ | 1 | 2 | 3 | 4 | 5
- | 0,32 | 0,045 | 0,0027 | 0,63·10 -4 | 0.57·10 -6
Если какая то экспериментальная точка отклонилась от теоретической кривой, скажем, на 2 σ , то нет оснований придавать этому особого значения. Вероятность такого отклонения 1/20, и если точек много, то какая-нибудь с большой вероятностью вылезет за такой предел. Если точка отклонилась на З σ , здесь уже есть предмет для разбирательства, а если за 4 σ и больше -можно сделать вывод, что что-то не так. Может быть, измерение неверное, а может быть теоретическая кривая неверна. И самое интересное: нет ли здесь какого-нибудь дополнительного эффекта, например спектральной линии, если точки описывают спектр. Здесь мы подходим к понятию статистической значимости.
Если мы знаем, что в данном месте спектра, например, квазара может быть рентгеновская линия железа, и видим, что соответствующая точка «отпрыгнула» вверх на 4 σ , мы вправе сказать: «Данные подтверждают существование линии излучения… на уровне статистической значимости 4 σ ». Возможные эквиваленты: «…на уровне статистической значимости 0,6·10 -4» или «…на уровне достоверности 0,9999». Если мы заранее знаем, что именно здесь может быть линия излучения железа, и, действительно, видим «отпрыгнувшую» точку, то 4 σ — приличный уровень значимости, и можно смело публиковать результат.
Определение статистической значимости может быть и не связано с распределением Гаусса и числом стандартных отклонений. Допустим, мы пытаемся показать, что данные говорят о наличии какого-то эффекта. Как надо поступать в общем случае? Допустим, эффекта нет. Значит, нам надо принять некую нулевую гипотезу, как должны выглядеть данные при отсутствии эффекта. В примере со спектром это некая гладкая функция без линий. Статистическую значимость можно определить как вероятность того, что данные в результате случая отклоняются от нулевой гипотезы так, что имитируют эффект, каким мы его видим в данных. Вероятность зависит от нулевой гипотезы и гипотезы эффекта, поэтому правильное говорить о статистической значимости такого-то эффекта относительно такой-то нулевой гипотезы .
В примере со спектром это просто вероятность того, что точка в том месте, где должна быть линия, случайно «отпрыгнула» вверх не меньше, чем на столько-то сигма. В общем случае любым посильным способом вычисляем вероятность случайной имитации эффекта. Неважно, как вычисляем, допустим, с помощью прямого численного моделирования методом Монте-Карло. Предположим, что эта вероятность получилась около 10 -4. Потом добавляем к гипотезе искомый эффект. Если при этом гипотеза (уже не нулевая) стала описывать данные хорошо, мы вправе сказать, что данные подтверждают эффект на уровне статистической значимости 10 -4. Чем меньше вероятность, тем выше статистическая значимость. Как это часто делают, можно перевести вероятность в термины сигма, используя таблицу, приведенную выше.
Допустим, мы обнаружили в данных указание на некий эффект значимостью 4 σ . Вероятность случайности, имитирующей этот эффект, очень мала. Следует ли из этого, что надо бить в барабан и немедленно публиковать статью? Это очень сильно зависит от того, что мы искали. Если мы искали известно что, заранее зная, в каком месте, то можно. Именно таков случай обнаружения известной спектральной линии. А если мы искали чего-нибудь, где-нибудь в большом массиве данных и наткнулись на некоторое отклонение значимостью 4 σ , то вполне возможно, что мы упорно искали и нашли случайный выброс на 4 σ и больше ничего. Таких случаев предостаточно. Даже в Nature иногда публикуют подобные «открытия». Обычно они быстро «рассасываются» и забываются. Но репутации страдают.
Проблема в том, что правильная оценка статистической значимости — не такое простое дело. Если мы нашли нечто значимостью 10 -4в 100 независимых попытках, то настоящая значимость 10 -2, а это уже очень слабый результат. В реальной работе с данными этих «независимых попыток» бывает огромное количество, и исследователь часто этого не осознает, а если осознает, то не умеет правильно оценить их число (это число в биологии и гуманитарных науках называется «поправка Бонферони», а в физике «штрафным фактором»). Четких рецептов, как оценивать эту поправку, на все случаи жизни не существует — это скорее кухня, а не наука. Владение этой кухней и есть составляющая профессионализма исследователя.
Читать дальше
Вот если для примера рассмотреть вращение Луны вокруг Земли. Луна, располагаясь на своей орбите, находится в состоянии равновесия, и при этом ее постоянном движении не совершается работа (работа - это затраченная мощность на протяжении некоторого времени, мощность в свою очередь - это скорость передачи энергии). Наоборот, чтобы сместить Луну с ее орбиты необходимо совершить работу (т.е. затратить мощность). Так и Вселенная, расширяясь, вероятнее всего, находится в состоянии равновесия, которое точно так же, как и равновесие системы Земля-Луна, обеспечивается самой гравитацией. Расширение Вселенной - это ее равновесие, а не затрата мощности при передачи гипотетической темной энергии. И искать темную энергию, которая бы была причиной расширения, - то же самое, что искать скрытый двигатель у Луны, который толкает ее вокруг Земли.