Математический инструмент, подобно любому другому научному инструменту, обнаруживает только явления определенного типа; вычисление корреляции позволяет обнаружить сердцеобразную форму этой диаграммы разброса не в большей степени, чем ваш фотоаппарат способен зафиксировать гамма-излучение [281]. Имейте это в виду, когда вам скажут, что два явления в природе или в обществе оказались некоррелированными. Это не означает, что между ними вообще нет связи; нет только связи того типа, которую должна обнаружить корреляция.
Глава шестнадцатая
Вынуждает ли рак легких курить?
Что можно сказать о ситуации, когда корреляция между двумя переменными все-таки существует? Что это означает на самом деле?
Для упрощения задачи давайте начнем с простейшего типа переменной – бинарной переменной, принимающей только два значения. Во многих случаях бинарная переменная представляет собой ответ на общий вопрос: «Вы состоите в браке?», «Вы курите?», «Вы состоите или когда-либо состояли в коммунистической партии?»
Когда вы сравниваете две бинарные переменные, корреляция принимает особенно простую форму. Например, утверждение, что существует отрицательная корреляция между семейным статусом и курительным статусом, означает только то, что семейные люди курят с меньшей долей вероятности, чем средний человек. Или, если сформулировать это иначе, курильщики вступают в брак с меньшей долей вероятности, чем обычные люди. Придется немного поразмышлять, чтобы убедить себя в том, что это одно и то же! Первое утверждение можно записать в виде такого неравенства:
семейные курильщики / все семейные люди < все курильщики / все люди
Второе утверждение можно записать так:
семейные курильщики / все курильщики < все семейные люди / все люди
Если умножить обе стороны каждого неравенства на общий знаменатель (все люди) × (все курильщики), становится очевидным, что эти два утверждения представляют собой разные способы выразить одну и ту же мысль:
(семейные курильщики) × (все люди) < (все курильщики) × (все семейные люди).
Точно так же, если существовала бы положительная корреляция между курением и вступлением в брак, это означало бы, что семейные люди были бы курильщиками с большей вероятностью, чем средний человек, а курильщики с большей вероятностью состояли бы в браке по сравнению со средним человеком.
Но здесь сразу возникает одна проблема. Безусловно, существует совсем малая вероятность, что доля курильщиков среди семейных людей в точности такая же , что и доля курильщиков во всей численности населения. Следовательно, при отсутствии невероятного совпадения между семейным статусом и курением существует корреляция – положительная или отрицательная. То же самое можно сказать о сексуальной ориентации и курении, о гражданстве США и курении, о принадлежности первой буквы имени ко второй половине алфавита и курении и так далее. Корреляция с курением будет обнаружена во всем, в том или ином направлении. Это та же проблема, с которой мы столкнулись в седьмой главе: нулевая гипотеза, строго говоря, почти всегда является ошибочной.
Если мы разведем руками и скажем: «Все коррелировано со всем!» – это не позволит нам узнать ничего нового. Поэтому мы не сообщаем обо всех без исключения случаях корреляции. Когда вы прочитаете сообщение, что существует корреляция между одним событием и другим, на самом деле подразумевается, что это достаточно сильная корреляция, чтобы о ней стоило говорить. Как правило, речь идет о корреляции, прошедшей проверку статистической значимости. Как мы уже видели, проверка статистической значимости сопряжена со многими опасностями, но она по крайней мере заставляет статистика задуматься и сказать: «Наверное, что-то здесь происходит».
Но что именно? Здесь мы подошли к вопросу, требующему особого внимания. Существует отрицательная корреляция между супружеством и курением, это факт. Как правило, этот факт формулируют следующим образом:
Если вы курильщик, меньше шансов, что вы состоите в браке .
Однако одно небольшое изменение существенно меняет смысл этого утверждения:
Если вы были бы курильщиком, у вас было бы меньше шансов состоять в браке.
На первый взгляд кажется странным, что изменение предложения с изъявительного на сослагательное наклонение может так сильно изменить смысл сказанного. Тем не менее в первом предложении просто говорится о том, что происходит. Второе предложение затрагивает гораздо более тонкий вопрос: что было бы , если мы изменили бы что-то в окружающем мире? Первое предложение выражает корреляцию; второе подразумевает каузальность. Как мы уже говорили, это не одно и то же. Математическое определение корреляции сформировалось еще сто лет назад, после публикации работ Гальтона и Пирсона. Однако постановка идеи каузальности на твердую математическую основу – гораздо более трудная задача [282].
Читать дальше
Конец ознакомительного отрывка
Купить книгу