Дальнейший порядок расчетов тот же. Делим дисперсию выборки на размер выборки и извлекаем квадратный корень из суммы: SQRT(0,0475:1000) = 0,007. Чтобы получить 90-процентный CI для доли меченых рыб в озере, к этой доле (0,05) прибавляем и вычитаем из нее 0,007, умноженные на 1,645 (z-значение 90-процентного CI). Результат: помечено 3,8–6,8 % всех рыб в озере. Мы знаем, что пометили 1000 рыб, тогда всего в озере от 1000/0,062 = 16 256 до 1000/0,032 = 25 984 особей.
Кому-то такой интервал покажется широким. Но предположим, что первоначально он выглядел как 2000—50 000 особей. Допустим также, что цель состояла только в том, чтобы определить, растет популяция или вымирает, и что ранее в озеро запустили 5000 мальков. Любое число свыше 6000 скажет нам о том, что популяция, как минимум, растет, а цифра свыше 10 000 — что запускать новых мальков больше не нужно. С учетом первоначального интервала значений и соответствующего порога полученная новая степень неопределенности — явный шаг вперед, а погрешность в данном случае вполне приемлема. На самом деле, и в первый, и во второй раз улов мог состоять не из 1000, а только из 250 рыб, но все равно мы были бы уверены, что популяция увеличилась так, что ее численность превысила 6000 особей.
Приведенный пример наглядно показывает, что выборочное обследование позволяет получить информацию даже о том, что никто не видит. Метод дает возможность определять, например, сколько человек остались не учтенными Бюро переписи населения США, сколько видов бабочек до сих пор не открыто в бассейне Амазонки, сколько несанкционированных попыток доступа в информационную систему было предпринято за прошедший период, а также сколько потенциальных клиентов не сумели выявить менеджеры компании. Если нельзя увидеть целиком какую-то группу объектов, это еще не означает, что измерить их численность тоже невозможно.
Метод выпуска пойманной рыбы и повторной ловли — лишь один из многочисленных приемов выборочного обследования. Несомненно, новые, более эффективные способы еще будут разработаны. Однако даже поверхностное знакомство с основными методами выборки позволяет правильно оценивать наблюдения и получать информацию, необходимую для решения самых разнообразных проблем.
ПРЕДНАМЕРЕННАЯ ВЫБОРКА
Преднамеренную (разовую) выборку можно сравнить со случайной моментальной фотографией людей, процессов или предметов в отличие от постоянного наблюдения за ними в течение некоего периода времени. Например, желая узнать, какую часть своего рабочего времени сотрудники тратят на данный вид деятельности, вы проверяете в один из дней, чем наугад выбранные люди заняты в настоящий момент. Окажись, что в 12 случаях из 100 работники участвовали в селекторном совещании, вы сделаете вывод: 12 % своего времени они тратят на селекторные совещания (90-процентный CI составляет 8–18 %). В этом примере, как и в случае с измерением численности рыбной популяции, мы имеем дело с биномиальным распределением. В каждый конкретный момент времени люди либо занимаются данным видом деятельности, либо нет, а вы просто спрашиваете, какую часть своего времени они на это тратят. И здесь размер выборки позволяет, как и ранее, считать распределение нормальным.
Но что, если удалось разово отобрать только 30 человек, из которых лишь пятеро занимаются интересующим вас видом деятельности? Достаточно ли этой информации? И вновь все зависит от степени исходной неопределенности до проведения выборочного обследования. Для ее снижения, возможно, этих данных и хватит. Рисунок 9.2 предоставляет способ быстрого определения 90-процентного CI для доли генеральной совокупности на базе малой выборки. Следуя указаниям на данном рисунке, вы получите такие результаты: нижняя граница 90-процентного CI — примерно 9 %, а верхняя — около 31 %. Предположим, что предыдущая оценка интервала дала итог 5–50 %, а порог, начиная с которого на базе той же информации придется принимать другое решение, — 40 %. Выборка такого размера вполне достаточна для принятия подобного решения.
КЛАСТЕРНАЯ ВЫБОРКА
Кластерное выборочное обследование — это случайная выборка из групп, проведение полного наблюдения или осуществление более концентрированной выборки в полученной группе. Например, если вы хотите узнать, какой процент семей имеет спутниковые тарелки или отделяет пластмассу от других бытовых отходов, иногда проще всего выбрать случайным образом в городе несколько кварталов, а затем провести сплошное обследование семей, проживающих в каждом из этих кварталов (на обследование семей, проживающих в разных концах города, ушло бы слишком много времени). В подобных случаях мы не можем исходить из того, что число объектов в случайной выборке должно равняться числу объектов в группах (в данном случае числу семей). Семьи, проживающие в одном квартале, могут быть очень похожими, поэтому нельзя считать, что размер случайной выборки определяется их числом. Когда семьи в квартале практически одинаковы, за размер выборки лучше принять число кварталов.
Читать дальше