Через объявления Гальтон привлекал испытуемых в свою лабораторию, где проводил измерения: роста, веса, даже некоторых костей. Его целью было найти определенный метод, позволявший вычислять данные детей, основываясь на данных их родителей. На одном из графиков Гальтона были показаны данные по росту родителей и детей. Если, скажем, рост всегда был одним и тем же, получалась аккуратная прямая, поднимавшаяся под углом в 45 градусов. Если же это соотношение в целом сохранялось, однако индивидуальные данные отличались, возникал пунктир выше и ниже прямой. Таким образом, график Гальтона демонстрировал наглядно не только общее отношение между ростом родителей и детей, но и то, до какой степени это отношение сохранялось. Что является вторым важным открытием и вкладом в статистику: определение математического показателя, описывающего это отношение. Гальтон назвал этот показатель коэффициентом корреляции.
Коэффициент корреляции — это число между −1 и 1; если оно приближается к ±1, две переменные связаны между собой линейно; 0 же означает отсутствие связи. Например, данные показывают: наедаясь в «Макдоналдсе» на 1 тыс. калорий раз в неделю, человек поправляется на 4,5 кг в год, а съедая 1 тыс. калорий дважды в неделю, на 9 кг. И так далее. Коэффициент корреляции в таком случае равен 1. Если по какой-то причине каждый, наоборот, терял бы этот вес, коэффициент корреляции был бы равен −1. А если бы данные о прибавке в весе и его потере были бы разбросаны по всему графику и не зависели от потребления еды, коэффициент равнялся бы 0. В наше время понятие «коэффициент корреляции» — одно из самых широко употребимых в статистике. К примеру, оно используется для того, чтобы проследить связь между количеством выкуренных сигарет и раковых заболеваний, расстоянием звезд от Земли и скоростью, с которой они удаляются от нашей планеты, баллами, получаемыми студентами по унифицированным тестам, и доходом в семьях этих студентов.
Труд Гальтона имел значение не только благодаря своей непосредственной важности, но еще и потому, что подвиг на дальнейшие исследования в области статистики, в результате чего наука быстро развивалась и крепла. Важную роль тут сыграл Карл Пирсон, ученик Гальтона. Ранее в этой главе я упоминал множество различных типов данных, которые распределяются в соответствии с принципом нормального распределения. Однако когда мы имеем дело с ограниченным количеством данных, кривая нормального распределения совершенной формы никогда не получится. В период становления статистики ученые, чтобы определить, действительно ли данные распределяются в соответствии с принципом нормального распределения, поступали очень просто: строили график и смотрели, какой получается кривая. Однако каким образом можно выразить количественно точность соответствия? Пирсон изобрел метод, называемый проверкой по критерию хи-квадрат, с помощью которого можно определить верность своего предположения относительно действительного соответствия набора данных распределению. В июле 1892 г. Пирсон провел в Монте-Карло эксперименты, заключавшиеся в точном повторении действий Джаггера {180} 180 Deborah J. Bennett, Randomness (Cambridge, Mass.: Harvard University Press, 1998), p. 123.
. В одном эксперименте у Пирсона, как и у Джаггера, выпадавшие числа не соответствовали распределению, какому должны были соответствовать, выдавай рулеточное колесо действительно случайные результаты. В другом эксперименте Пирсон выяснял, сколько пятерок и шестерок выпадает за 26 306 подбрасываний двенадцати костей. И обнаружил, что распределение не такое, какое было бы в вероятностном эксперименте с идеальной костью — то есть в таком эксперименте, в котором вероятность пятерки или шестерки при одном броске была бы равна 1 из 3, или 0,3333. Однако соответствие наблюдалось, если вероятность пятерки или шестерки была 0,3377 — то есть, если кость не была идеальной. В случае с рулеткой игра могла быть сфальсифицированной, однако у костей отклонения могли быть обусловлены неточностями при изготовлении, каковые, как настаивал мой друг Моше, всегда присутствуют.
В наше время проверка по критерию хи-квадрат применяется во многих случаях. Предположим, что вместо испытаний с привлечением костей вы решите провести испытания с тремя пачками из-под хлопьев на предмет их привлекательности для потребителя. Если у потребителей нет предпочтений, можно ожидать, что около 1 из 3 выскажутся за каждую из пачек. Как мы убедились, на практике результаты редко когда распределяются с такой равномерностью. Проведя проверку по критерию хи-квадрат, вы определите, насколько вероятно, что пачка-победитель получит больше голосов в результате потребительских предпочтений, нежели простой случайности. Так же предположим, что исследователи одной фармацевтической компании проводят эксперимент: испытывают два способа лечения, используемые для предупреждения резкого отторжения трансплантанта. Они могут прибегнуть к проверке по критерию хи-квадрат, чтобы определить, существует ли статистически значимая разница между результатами. Или же предположим, что перед открытием нового автосалона руководитель финансовой службы компании по прокату автомобилей ожидает, что 25% клиентов потребуются автомобили среднего класса, 50% — малолитражки и 12,5% — автомобили средней категории и «других». Когда начинают поступать данные о продажах, проверка по критерию хи-квадрат может помочь руководителю быстро проверить: правильны ли его предположения или же новый салон нетипичен и стоит переориентироваться в соответствии со спросом.
Читать дальше
Конец ознакомительного отрывка
Купить книгу