СТРАТИФИЦИРОВАННЫЕ ВЫБОРКИ
При стратифицированном отборе разные методы и (или) размеры выборки применяются к разным группам в составе одной генеральной совокупности. Этот подход имеет смысл, когда генеральная совокупность состоит из нескольких сильно отличающихся друг от друга, но внутренне однородных групп. Если вы владеете рестораном быстрого питания и хотите определить демографический состав своих клиентов, то, возможно, следует применять разные методы выборочного обследования к клиентам за столиками и к тем, кто берет еду на вынос. Если вы директор завода и хотите проверить, как соблюдается техника безопасности, то, возможно, методы наблюдения за сварщиками, мастерами и уборщицами должны различаться.
СЕРИЙНАЯ ВЫБОРКА
В учебниках по статистике метод серийной выборки обычно не освещается. Не обсуждали бы его и мы, называйся наша книга «Как измерить большинство вещей». Но в период Второй мировой войны данный подход широко использовался для сбора разведывательной информации [25] Goodman. Serial Number Analysis // Journal of the American Statistical Asso-ciasion, 1952, 47, p. 622–634.
. Он может пригодиться и сегодня для решения некоторых бизнес-проблем. В годы Второй мировой разведчики союзников собирали сведения о производстве вражеской военной техники, в том числе немецких танков «Mark V». Сведения о производстве этих тяжелых танков были очень противоречивыми, и руководство разведки союзников не знало, чему верить. В 1943 г. работавшие на союзников статистики разработали метод определения объема производства на основе серийных номеров захваченных танков. Серийные номера следовали друг за другом и включали какую-нибудь дату. Однако по одному серийному номеру еще нельзя было точно сказать, когда был произведен первый танк серии (поскольку серия могла начинаться не с номера 001). Здравый смысл подсказывает, что минимальное месячное производство должно равняться, по крайней мере, разности между последним и первым серийными номерами машин, захваченных в данном месяце. Но нельзя ли узнать из этих номеров что-нибудь еще?
Подойдя к захваченным танкам как к случайной выборке из всей генеральной совокупности, статистики поняли, что могут рассчитать вероятность производства в разных объемах. Например, если в каком-то месяце было выпущено 1000 танков, то вероятность случайно захватить 10 произведенных в этот период машин с серийными номерами, отличающимися друг от друга не более чем на 50 единиц, крайне мала. Разброс номеров 10 танков, случайным образом выбранных из 1000, должен быть больше. Если же в этом месяце было произведено только 80 танков, то захват 10 из них с такими близкими номерами, по крайней мере, возможен.
Таблица 9.3 демонстрирует данные о выпуске танков «Mark V» по сведениям разведки и расчетам статистиков в сравнении с фактическим производством (сведения из захваченных после войны документов). Сравнение подтверждает эффективность статистического метода, основанного на анализе серийных номеров захваченных машин.
Более того, дать оценку, значительно более точную, чем исходные данные разведки, наверное, можно было по номерам нескольких танков. Рисунок 9.3 показывает, как по случайной выборке предметов с серийными номерами определяют размер всей генеральной совокупности. Следуя указаниям рисунка, рассмотрим пример, когда число трофеев составляет восемь объектов (которыми могут быть товары конкурирующей фирмы, найденные в мусоре страницы ее отчета и т. д.). Самый большой серийный номер — 100 220, а самый маленький — 100 070, так что в результате этапа 1 мы получаем 150. Результат этапа 2 — около 1,0 (в этой точке кривая верхней границы пересекает вертикальную линию для нашего размера выборки — 8). На этапе 3 мы производим простые вычисления (1+1,0) × 150 = 300 и получим значение верхней границы CI. Повторив эти шаги для нижней границы и среднего значения, получаем 90-процентный доверительный интервал 156–300 со средним значением 195 (обратите внимание, что среднее — это не середина диапазона, поскольку распределение асимметрично). Так что статистики могли сделать свои выводы, располагая всего восемью номерами захваченных танков.
Два предостережения: если захвачены машины одной бронетанковой части, ни одна из них не может считаться отобранной случайно, поскольку у них могут быть близкие номера. Однако обычно это сразу видно по самим номерам. Кроме того, когда на самом деле нумерация серии не совсем последовательная (то есть каждый следующий номер присваивался не следующему танку) и какие-то номера пропущены, данный метод требует определенной модификации. Отметим: необходимо, чтобы распределение используемых номеров легко обнаруживалось. Например, если используются только четные номера или номера, отличающиеся друг от друга на пять, то это должно быть очевидным из выборки.
Читать дальше