Определение необходимого объема выборки

Перед непосредственным проведением выборочного наблюдения всегда решается вопрос, сколько единиц исследуемой совокупности необходимо отобрать для выборки. Формулы для определения ее численности выводят из формул предельных ошибок выборки в соответствии со следующими исходными положениями:

  • • видом предлагаемой выборки;
  • • способом отбора (повторный или бесповторный);
  • • выбором оценивания параметра (среднего значения или доли).

Кроме того, необходимо заранее определиться со значением доверительной вероятности, которая устраивала бы потребителя информации, и с размером допустимой предельной ошибки выборки. Задать Д и I (соответствующих доверительной вероятности), как правило, не представляет особых трудностей, поскольку они связаны с природой изучаемой совокупности.

Однако надо помнить, что большая доверительная вероятность весьма увеличивает объем выборки. Аналогична ситуация с предельной ошибкой выборки: ее снижение вдвое увеличивает размер выборки вчетверо. Вопрос о том, какая точность удовлетворяет исследователя, становится принципиальным, если обследование еще одной единицы наблюдения приводит к большим финансовым и материальным затратам (при территориальной удаленности единиц наблюдения, конфиденциальности собираемых данных, сложности программы наблюдения и т.д.), и непринципиальным, если затраты на обследование одной единицы сравнительно небольшие.

Формулы для расчета необходимого объема выборки для разных способов отбора показаны в табл. 13.10.

При использовании приведенных в таблице формул рекомендуется получаемую численность выборки округлять в большую сторону для обеспечения некоторого «запаса» точности.

Кроме того, в статистической практике распространен вариант, когда величина предельной ошибки выборки задается в процентах (относительная предельная ошибка выборки). В этом случае абсолютное значение ошибки делят на среднее значение признака и умножают на 100%. Тогда для применения формул таблицы следует найти абсолютное значение предельной ошибки следующим образом:

Таблица 13.10

Формулы для нахождения объема выборочной совокупности

Способ отбора

Повторный отбор

Бесповторный отбор

При оценивании среднего значения

Собственно-случайный

Механический

"

Типический

Серийный с равными сериями

При оценивании доли

Собственно-случайный

Механический

Окончание

Способ отбора

Повторный отбор

Бесповторный отбор

Типический

Серийный с равными сериями

Если в качестве исходных параметров для определения объема выборки заданы относительная ошибка Д% и коэффициент вариации

изучаемого признака, исчисленный как F„=^100%, то формулу

х

собственно-случайной выборки при повторном отборе можно преобразовать следующим образом:

Реальную сложность для определения объема выборки представляет определение размера вариации признака — дисперсии. На практике эта величина чаще всего остается неизвестной до проведения обследования. Как поступить в каждом конкретном случае, решает сам исследователь.

Иногда дисперсию оценивают прямыми способами:

  • • проводят плотные обследования до начала основного наблюдения с целью выяснения величины о2;
  • • принимают условно величину дисперсии из прошлых аналогичных обследований (чаще всего используемый на практике способ). Подобный подход оправдан, если генеральная совокупность в силу своей природы не подтверждена значительными динамичными процессами или их проявления не столь ярки.

Существует также ряд «косвенных» способов нахождения дисперсии изучаемого признака, представляющих собой определенные математические приемы, которые базируются на свойствах статистических совокупностей. Поскольку распределения большинства из них близки к нормальному закону, значение дисперсии приблизительно можно определить следующим образом.

Так как все значения варианта признака при нормальном законе распределения размещаются на За в одну и другую сторону от среднего, имеет место приблизительное равенство R « 6а, где R — размах вариации признака, определяемый как R = xmax — xmin.

Следовательно,

На практике для получения некоторого «запаса» выборочных единиц для обеспечения требуемой точности часто предпочитают пользоваться соотношением

Величины хтах и xmin при наблюдении за социально-экономическими процессами обычно известны или определяются действующим законодательством. Например, среднесписочная численность работающих на малых предприятиях строго ограничена законодательно.

Для социально-экономических явлений, если некоторым образом (например, из данных прошлых обследований) известно значение среднего, для приближенной оценки среднего квадратичного отклонения используют соотношение

Дисперсия альтернативного признака зависит от доли единиц, которые обладают изучаемым признаком (свойством) w. Если эта доля неизвестна, берется максимально возможное значение дисперсии — 0,25, достигаемое при w = 0,5.

Из формул табл. 13.10 следует, что численность выборки прямо пропорциональна дисперсии изучаемого признака. Действительно, с увеличением колеблемости единиц, для того чтобы уловить вариацию, требуется все большее их количество для отбора и включения в выборку.

Итак, рассмотрено определение объема выборки при одном наблюдаемом признаке. Но как быть, если характерных признаков несколько и вариация этих признаков различна или некоторые их них альтернативные. Логично было бы выбрать тот признак, расчеты по которому приводят к наибольшему среди остальных объему выборки (этим признаком будет тот, по которому требуется получить наименьшую величину относительной ошибки выборки при одной и той же доверительной вероятности). Действительно, в этом случае определение генеральных параметров других признаков будет сопровождаться большей точностью, чем требуется, т.е. появится некоторый «запас» точности.

Надо также отметить, что на практике зачастую объем выборки корректируется в соответствии с имеющимися финансовыми и кадровыми ресурсами, тогда принимают во внимание необходимость достижения оптимального соотношения затрат и точности получаемых результатов. При трудностях с финансированием статистических наблюдений, особенно если снижение расходов происходит довольно значительно при допускаемых потерях в точности, подобный шаг более чем оправдан.

На определение объема выборки также оказывает влияние весьма распространенное при статических наблюдениях явление, связанное с неответами опрашиваемых единиц. В случае больших генеральных совокупностей, измеряемых сотнями и миллионами (например, совокупность населения страны), можно сделать определенную поправку на неответы, увеличив объем выборки. Однако при обработке результатов обследования и особенно при использовании на их основе конкретных рекомендаций следует помнить о произведенных при сборе данных допущениях.

Рассмотрим примеры задач на определение необходимой численности выборочной совокупности.

Пример 13.7. Сколько объектов из совокупности 507 фирм надо проверить налоговой инспекции, чтобы с вероятностью 0,997 определить долю фирм с нарушениями в уплате налогов? По данным прошлого обследования величина среднего квадратичного отклонения составила 0,15; размер ошибок выборки должен быть не выше чем 0,15.

При повторном случайном отборе следует проверить

При бесповторном случайном отбое необходимо проверить

Как видим, использование бесповторного отбора приводит к обследованию гораздо меньшего числа объектов.

Пример 13.8. Администрация одного из субъектов РФ решила провести выборочное обследование 366 малых фирм, в процессе проведения которого предполагалось определить:

  • • долю лиц с высшим образованием, работающих в малых фирмах (размер предельной ошибки не должен превышать 0,1);
  • • долю работающих в малых фирмах женщин (размер предельной ошибки не должен превышать 0,12);
  • • средний возраст работающих в малых фирмах (размер предельной ошибки не должен превышать два года).

Распределение малых фирм по отраслям экономики таково

Отрасль экономики

Число фирм

Промышленность

40

Сельское хозяйство

14

Строительство

24

Транспорт и связь

62

Торговля и общественное питание

108

Общественная коммерческая деятельность по обеспечению функционирования рынка

28

Жилищно-коммунальное хозяйство и непроизводственные виды бытового обслуживания населения

30

Наука и научное обслуживание производства

24

Другие отрасли

36

Всего фирм

366

Администрация города предполагает, что значение изучаемых признаков существенно варьируется в зависимости от отраслевой принадлежности фирмы, поэтому была выбрана типическая выборка, пропорциональная объему типических групп.

Определим, какова при этом должна быть ее численность и сколько единиц наблюдения следует извлечь из каждой типической группы при доверительной вероятности 0,954. Первые два признака — альтернативные, тогда оценкой неизвестной дисперсии является ее максимальное значение — 0,25.

Необходимый объем выборки при оценивании доли лиц с высшим образованием будет иметь следующее значение:

Оценивание доли работающих женщин требует обследовать

Можно было бы сразу определить, по какому признаку следует проводить расчеты. Им всегда является тот, который имеет большую точность (меньшую ошибку при одной и той же доверительной вероятности). Однако третий признак в нашем примере — количественный. Определим, какой объем выборки потребуется, чтобы оценить его. Приблизительное значение дисперсии получим исходя из свойств нормального распределения:

(при максимальном и минимальном возрасте, равном соответственно 60 и 18 лет, что является наиболее вероятным разбросом).

Откуда ст2 = 49.

Проведем расчет:

Итак, для достижения заданной точности по всем наблюдаемым признакам следует выбрать максимальную численность, полученную по всем трем показателям, т.е. п = 65 фирм.

Далее рассчитаем, сколько единиц следует отобрать из каждой типической группы. В качестве группировочного признака возьмем, например, отраслевую принадлежность фирм:

Отрасль экономики

Число

фирм

Число фирм, отбираемых в выборочную совокупность

Промышленность

20

Сельское хозяйство

27

Строительство

12

Транспорт и связь

31

Торговля и общественное питание

54

Общая коммерческая деятельность

14

Жилищно-коммунальное хозяйство и непроизводственные виды бытового обслуживания населения

15

Наука

12

Другие отрасли

18

Всего

183

65

Неформализованные способы формирования выборки. Вопрос об оптимальном размере выборки всегда был спорным в среде исследователей. Решение относительно размера выборочной совокупности принимают с учетом целого ряда факторов, среди которых самую существенную роль играют два: 1) ценность и новизна получаемой в результате исследования информации; 2) затраты на проведение исследования (включая и временные) при заданном размере выборки.

Во многих случаях можно руководствоваться сложившейся практикой, т.е. размером выборки, использовавшейся в аналогичных исследованиях. Кроме того, существуют следующие простейшие правила для определения объема выборочной совокупности.

Размер выборки растет, если:

  • • необходимо получить данные для отдельных подгрупп (размеры подвыборок при этом суммируются и выборка в целом растет пропорционально числу подгрупп);
  • • уже имеющаяся информация по ключевым вопросам недостаточна и степень неопределенности значительна.

К тому же практикой многочисленных исследований уже отработаны «типические» размеры выборок. Так, для общенациональных опросов населения эти объемы варируют в пределах 1000—2500 респондентов (в зависимости от числа анализируемых групп). Для региональных опросов и опросов специальных популяций — от 200 до 500 (при анализе многочисленных подгрупп размер региональной или специальной выборки обычно возрастает как минимум до 1000 человек). Указанные значения, разумеется, могут служить лишь самым общим ориентиром для определения оптимального размера выборки.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >