Ход рассуждений, лежащий в основе p -значения, дает нам четкий ориентир. Нулевая гипотеза состоит в том, что ваш сосед не террорист. В соответствии с этой гипотезой (другими словами, исходя из невиновности соседа) вероятность того, что он появится в «красном списке» Facebook, составляет всего 0,05 %, гораздо ниже порога статистической значимости 1 из 20. Другими словами, согласно правилам, которым в подавляющем большинстве случаев подчиняется современная наука, вы имеете все основания отбросить эту нулевую гипотезу и объявить своего соседа террористом.
Вот только вероятность того, что он не террорист, равна 99,99 %.
Тем не менее почти нет шансов на то, что алгоритм отметит невиновного человека как террориста. В то же время почти все люди, которых выделяет алгоритм, невиновны. Похоже на парадокс, но на самом деле это не так. Таково положение дел. Если вы сделаете глубокий вдох и внимательно присмотритесь к матрице, вы все поймете.
Суть вот в чем. На самом деле существуют два вопроса, которые вы можете задать. На первый взгляд они кажутся одинаковыми, но это не так.
Вопрос 1: какова вероятность, что человек попадет в список Facebook, при условии что он не террорист?
Вопрос 2: какова вероятность, что человек не террорист, при условии что он входит в список Facebook?
Эти вопросы отличаются друг от друга, поскольку на них даются разные ответы. По-настоящему разные ответы. Мы уже видели, что ответ на первый вопрос – около 1 из 2000, тогда как ответ на второй вопрос – 99,99 %. И именно ответ на второй вопрос вам нужен.
Величины, о которых идет речь в этих вопросах, обозначаются термином «условные вероятности»: «вероятность того, что имеет место Х , при условии Y ». А мы ломаем здесь голову над тем, что вероятность Х при условии Y – это не то же самое, что вероятность Y при условии Х .
Если сказанное кажется вам знакомым, так и должно быть: это именно та проблема, с которой мы столкнулись, когда рассматривали доказательство от маловероятного; p -значение – это ответ на вопрос:
«Вероятность, что наблюдаемый результат эксперимента будет иметь место при условии, что нулевая гипотеза правильна».
Однако нам нужно знать другую условную вероятность:
«Вероятность, что нулевая гипотеза правильна при условии наблюдения определенного результата эксперимента».
Опасность возникает именно в случае, когда мы путаем вторую величину с первой. И такая путаница имеет место повсюду, не только в научных исследованиях. Когда окружной прокурор наклоняется к жюри присяжных и объявляет «Есть один шанс из пяти миллионов, повторяю, один шанс из пяти миллионов, что ДНК невиновного человека совпадет с ДНК, обнаруженной на месте преступления», он отвечает на первый вопрос: «Какова вероятность того, что невиновный человек выглядит виновным?» Однако работа жюри присяжных в том, чтобы найти ответ на второй вопрос: «Какова вероятность, что на первый взгляд виновный подсудимый невиновен?» На этот вопрос окружной прокурор уже не поможет им ответить [147].
* * *
Пример с Facebook и террористами объясняет, почему плохие алгоритмы должны вызывать не только такое же беспокойство, что и хорошие, но и большее. Мало приятного в том, что Target знает о вашей беременности. Гораздо хуже, если вы не террорист, но Facebook считает вас таковым.
Может быть, вы думаете, что Facebook никогда не станет составлять список потенциальных террористов (налоговых мошенников, педофилов) или делать такой список общедоступным, в случае если он все-таки будет создан. Зачем им это надо? На чем здесь можно заработать деньги? Может, так и есть. Однако Агентство национальной безопасности США также собирает данные о жителях Америки, являются ли они пользователями Facebook или нет. Происходит нечто вроде составления черного списка – если только вы не думаете, что в АНБ регистрируют метаданные о всех наших телефонных звонках лишь ради того, чтобы давать операторам мобильной связи полезные советы, где им следует построить дополнительные сигнальные вышки. Большие данные – не магическая сила; они не говорят федералам, кто террорист, а кто нет. Но, чтобы составлять длинные списки людей, по тем или иным причинам отмеченных красным флажком, отнесенных к группе повышенного риска или обозначенных как «подозреваемые», – никакого волшебства не нужно. Большинство людей, включенных в такие списки, не имеют никакого отношения к терроризму. Вы уверены, что не принадлежите к их числу?
Читать дальше
Конец ознакомительного отрывка
Купить книгу