Наука – битва за то, чтобы найти причины и объяснения, несмотря на путаницу данных. Так что давайте не будет слишком сильно очаровываться наукой о данных, главные победы которой пока что заключаются в громогласной саморекламе и попытках убедить мир в собственной значимости. У фактов как таковых нет голоса. И космическая сага Кеплера показывает, что такого понятия, как «необработанные данные», тоже не существует. Для того чтобы понять, какие именно данные отобрать и как именно о них думать, требуется прозрение, прорыв в неизвестность.
А пока, чтобы правильно работать с собранными данными, будем по-прежнему использовать классические консервативные методы: интуицию, моделирование, теоретизирование – и только потом статистику.
Воспроизводимость
Виктория Стодден
Специалист по авторскому праву в области вычислительных технологий; профессор статистики, Колумбийский университет.
Я не хотела бы говорить о том, пора ли в отставку этой абстрактной идее; не хочу также обсуждать вопрос о ее месте в научном дискурсе и ее роли в процессе открытий; вместо этого я предложила бы поговорить об определении самого понятия «воспроизводимость» ( reproducibility ) и о том, как этот термин используется в разных исследовательских средах, с которыми имеют дело ученые.
В 1660-е годы, когда Роберт Бойль впервые ввел концепцию воспроизводимости в научный оборот, понятие научного эксперимента и открытия было двояким. С одной стороны, под этим подразумевались дедуктивные рассуждения, опирающиеся на математику и логику, с другой – относительно новая техника индукции, предложенная Фрэнсисом Бэконом. Технология проверки истинности утверждения была хорошо отлажена в логических дедуктивных системах, однако с проверкой эксперимента дело обстояло гораздо сложнее. В ходе своей совместной с Робертом Гуком работы по созданию вакуумной камеры Бойль пришел к выводу о том, что индуктивные (они же эмпирические) выводы – возникающие в результате наблюдений природы и затем сформулированные в виде заключения – необходимо верифицировать путем независимого повторения опыта. Именно поэтому публикации эмпирических исследований с тех пор всегда содержат достаточно подробное описание процедуры и протокола опыта, оборудования, которое в ходе него применялось, и результатов наблюдений. Эти подробности позволяют другим исследователям повторить процедуру и, возможно, получить те же результаты.
В наши дни следование этой концепции затрудняется повсеместным использованием вычислительных методов. Компьютеры не похожи на научный инструментарий прошлого, поскольку они представляют собой скорее платформы для внедрения тех или иных методов, а не непосредственные инструменты исследователя. И в современных условиях концепция воспроизводимости настоятельно требует публикации дополнительных сведений – таких как информация об использовавшемся программном обеспечении и другие цифровые данные (которые, однако, публикуются далеко не всегда).
Этот пробел в передаче научного знания не остался незамеченным в сообществе ученых, занимающихся вычислительной наукой, и, словно мы вернулись во времена Бойля, раздается все больше голосов, призывающих к установлению новых стандартов научной коммуникации. На этот раз предлагается включить в набор публикуемой информации данные и программы. Невоспроизводимые вычислительные результаты экспериментов в области генетики, проводившихся в последние годы в Университете Дьюка, привлекли серьезное внимание к этой проблеме и привели к появлению отчета Национальной академии медицины, в котором рекомендовались новые стандарты клинических испытаний – в частности, особая процедура одобрения для вычислительных тестов, возникающих в процессе вычислительных исследований.
Отчет впервые в истории науки рекомендовал, чтобы информация о программах, которые будут использоваться в том или ином вычислительном тесте, была опубликована в самом начале исследования, то есть стала бы «устойчиво доступной». На прошедшем после публикации отчета семинаре в Университете Брауна на тему «Воспроизводимость в вычислительной и экспериментальной математике» (в котором я выступила одним из соорганизаторов) были сформулированы рекомендации относительно того, какую информацию следует включать при публикации вычислительных выводов (в частности, речь шла о доступе к программам, данным и деталям исполнения). В данном контексте под воспроизводимостью следует понимать вычислительную воспроизводимость ( computational reproducibility ).
Читать дальше