Корреляция позволяет ответить на тот же вопрос косвенным образом. Выберите группу людей, измерьте, сколько вина они пьют, узнайте их возраст и посмотрите, живут ли винопийцы дольше. Разумеется, даже сильная корреляция не означает причинно-следственной связи. Может быть, вино продлевает жизнь. Может быть, длинная жизнь побуждает людей пить алкоголь. Может быть, оба фактора вызваны третьей переменной (например, богатые люди живут дольше и могут позволить себе покупать вино). Узнать невозможно.
Даже с учетом этого недостатка изучение коэффициента корреляции — прекрасное начало исследований. Эта методика дешевая, быстрая и позволяет обрабатывать большие массивы данных. Она не может выявить причины точно, но может предложить интригующие гипотезы.
Почему нельзя доверять?Коэффициент корреляции — одна из самых агрессивных статистических величин. Она перемалывает сотни или тысячи пар переменных в одно число от –1 до 1. Неудивительно, что некоторые вещи остаются за бортом. Проиллюстрируем этот факт математическим парадоксом, известным под названием квартет Энскомба {62} .
Переступим порог Энскомбской Академии чародейства и волшебства, где ученики неделями готовятся к экзаменам по четырем дисциплинам: зельеварение, трансфигурация, заклинания и защита от темных искусств. Мы будем учитывать две переменных: оценку ученика (от 0 до 13) на каждом экзамене и количество часов на подготовку к нему.
Глядя на обзорную статистику, вы можете подумать, что результаты по четырем экзаменам одни и те же:
И все же… ну, просто присмотримся. (Каждая точка обозначает ученика.)
Экзамен по зельеварению соответствует моему стереотипу сдачи экзаменов. Длительная подготовка, скорее всего, повысит ваши результаты, но вовсе не обязательно. Вмешивается случайный шум. Таким образом, корреляция равна 0,816.
В то же время оценки по трансфигурации лежат на почти идеальной прямой: каждый дополнительный час подготовки приносит дополнительные 0,35 балла, за исключением одного выдающегося ребенка, который снижает корреляцию от идеальной единицы до 0,816.
Экзамен по заклинаниям соответствует еще более четкой схеме: чем больше вы готовитесь, тем лучше ваша оценка, но в какой-то момент тенденция меняется. Если вы будете заниматься дольше десяти часов, с каждым часом ваша оценка будет ухудшаться (возможно, из-за сонливости). Как бы то ни было, корреляция может выявить только линейную зависимость, поэтому она не замечает эту параболу и коэффициент корреляции равен 0,816.
Наконец, перед экзаменом по защите от темных искусств все ученики занимались по 8 часов, но получили разные оценки. Зная продолжительность подготовки, вы не можете предсказать оценку. Есть одно исключение: трудоголик-одиночка потратил 19 часов на подготовку и получил высший балл. Одна-единственная точка повышает коэффициент корреляции от 0 до… 0,816.
Оценки по каждому экзамену следуют своей логике, подчиняются уникальной схеме. Но коэффициент корреляции упускает это из виду.
Опять-таки такова природа статистики. Как я люблю говорить:
Статистика — ненадежный свидетель.
Она не лжет, но никогда не говорит всю правду.
Цитируйте меня на здоровье. Или, следуя традиции, придумайте афоризм о статистике самостоятельно и припишите его мне.
Глава 17. Последний отбивающий с рейтингом 40,0%
Взлет и падение бейсбольной статистики
С момента своего возникновения бейсбол был игрой чисел. На данный момент в «Википедии» перечислены 122 разновидности бейсбольной статистики, от DICE до FIP и VORP, и я подозреваю, что это лишь верхушка айсберга. Более того: подберите наугад три буквы — готов поклясться, что кто-нибудь где-нибудь уже скрупулезно ведет статистику под таким кодовым названием.
Эта глава посвящена одной статистической модели — от скромного начала до постепенного упадка. Речь идет о рейтинге «БА» (англ. BA): бостонский акцент. Простите, блатной алкоголь. Ну ладно, хорошо: batting average (процент реализации выходов на биту).
Читать дальше
Конец ознакомительного отрывка
Купить книгу