Эту вычислительную воспроизводимость следует отличать от эмпирической воспроизводимости или описанной Бойлем передачи сведений в рамках невычислительных научных экспериментов. Это различие крайне важно, поскольку и у традиционных эмпирических исследований имеется немало проблем с точки зрения повторяемости и доверия к результатам. Как отметил лауреат Нобелевской премии (и постоянный участник дискуссий на Edge.org ) Даниэль Канеман, говоря о невоспроизводимости определенных психологических экспериментов, «впереди нас может ждать серьезная катастрофа».
Постепенно становится все более ясным, что наука более не может считаться надежным источником «проверяемых фактов» (в данном случае речь идет об эмпирической, а не вычислительной воспроизводимости). Однако то, что мы называем оба эти понятия одним и тем же словом «воспроизводимость», лишь запутывает обсуждение, в результате которого мы хотели бы принять воспроизводимость в качестве стандарта. И я считаю, что существует как минимум еще один явный источник невоспроизводимости – «статистическая воспроизводимость» ( statistical reproducibility ).
Решение вопроса воспроизводимости путем открытия информации о методах и инструментах исследователя – это, безусловно, важно, но этого совершенно недостаточно. Помимо этого, нам нужно выработать новые критерии для оценки надежности и постоянства статистических выводов, в том числе новые показатели надежности, расширить поле неопределенности при количественной оценке. Это позволит нам сформулировать новые показатели статистической неопределенности и лучше понять возможные источники ошибок, особенно когда в дело вовлечены большие наборы данных из множества источников или масштабные модели. Мы также можем лучше выявлять искажения, возникающие из-за правил статистической отчетности, разработанных задолго до компьютерной эры.
Проблем с любым из этих трех типов воспроизводимости – эмпирической, вычислительной и статистической – может быть вполне достаточно для того, чтобы сорвать любую работу по установлению научных фактов. Каждый из этих типов требует своего «лечения» – улучшения существующих стандартов передачи научного здания и научной отчетности (эмпирическая воспроизводимость); большей доступности информации о вычислительной среде (вычислительная воспроизводимость); и статистической оценки повторных результатов с целью их валидации (статистическая воспроизводимость).
Мои предложения носят довольно общий характер, и каждый тип воспроизводимости может потребовать различных действий, в зависимости от деталей контекста того или иного научного исследования. Но если мы будем и дальше путать между собой эти не похожие друг на друга аспекты научного метода, то так и не сможем найти решение для старого спора, который начался около недостроенной вакуумной камеры Бойля.
Среднее значение
Николас Кристакис
Профессор социальных и естественных наук, Йельский университет; соавтор (с Джеймсом Фаулером) книги Connected: The Surprising Power of Our Social Networks and How They Shape Our Lives [103].
Различные статистические техники, позволяющие нам достаточно правильно оценивать различие между средними значениями для двух групп, были изобретены более 100 лет назад, и с тех пор мы постоянно вводим себя в заблуждение, считая, что единственно важные различия – а то и просто единственные – это заметные различия. Мы потратили целое столетие на наблюдение этих различий и их интерпретацию. Это похоже на одержимость, и это необходимо остановить.
Да, мы можем с достаточной степенью уверенности говорить о том, что мужчины в среднем выше женщин; что норвежцы богаче шведов; что ребенок-первенец обычно умнее, чем второй ребенок в семье. Также мы умеем проводить эксперименты, направленные на выявление крошечных различий в средних значениях – между группами, подверженными и не подверженными влиянию вируса, или между группами, имеющими и не имеющими определенной разновидности какого-то гена. Однако это слишком простой и слишком узкий взгляд на природу.
Нам следует отказаться от своей привычной концентрации на средних значениях – или хотя бы отказаться от нее на какое-то значительное время. И нам стоит потратить это время на выявление другого типа различий между группами, которому прежде не уделялось должного внимания. Нам стоит сконцентрироваться на сравнении различий в дисперсии между группами – учитывающей разброс или диапазон измеряемых значений.
Читать дальше