ПРОВЕРКА ГИПОТЕЗ

На практике часто приходится на основе выборочных наблюдений проверять различные предположения относительно генеральной совокупности. Процедура сопоставления выдвинутых гипотез с выборкой и вынесения решения относительно приемлемости этих гипотез получила название проверки гипотез.

ОСНОВНЫЕ ПОНЯТИЯ ПРОВЕРКИ ГИПОТЕЗ. ГИПОТЕЗЫ О ПАРАМЕТРАХ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ

Статистическая гипотеза — это некоторое предположение относительно генеральной совокупности, проверяемое по выборочным данным. Примеры статистических гипотез:

  • а) нормально распределенная случайная величина X имеет генеральное среднее а, равное а0
  • б) нормально распределенная случайная величина X имеет дисперсию, равную й0;
  • в) выборка х =ь х2,..., х„) взята из нормально распределенной генеральной совокупности.

Гипотеза называется параметрической, если в ней содержится некоторое утверждение о значении параметра распределения известного вида. Параметрическая гипотеза называется простой, если ней речь идет ровно об одном значении параметра (одномерного или многомерного); в противном случае имеют дело со сложной гипотезой.

Проверяемую гипотезу называют основной, или нулевой, и обозначают Н0. Например, простая гипотеза «а» запишется так: Н0 : а = а0. Наряду с Н0 рассматривают конкурирующую, альтернативную гипотезу, являющуюся логическим отрицанием Н0. Альтернативной к гипотезе «а» может, например, быть простая гипотеза Нх : а = ахх — число, не равное а0) или сложные гипотезы Нх : аФ а0, или Нх : а <а0 и т.д. Гипотеза b относится к непараметрическим.

Правило, по которому решают: принять или отклонить Н0 (соответственно отклонить или принять //,), — называют критерием. В общем, схема построения критерия такова: все выборочное пространство делится на две взаимодополняющие области — область S отклонения основной гипотезы Я0 и область S принятия этой гипотезы (область отклонения основной гипотезы называется критической); если выборочная точка х попала в S, то основная гипотеза Я0 отклоняется и принимается альтернативная гипотеза Я,; если же точка х попала в S , то принимается Я0, а Нх отклоняется.

При этом может иметь место ошибка двух родов:

? будет принята гипотеза Нь тогда как на самом деле верной является Я0 — это ошибка первого рода, ее вероятность обозначают а:

где Р(Я,|Я0) — вероятность того, что будет принята гипотеза Я, если на самом деле в генеральной совокупности верна гипотеза Н0;

ауровень значимости и обычно для а используют некоторые стандартные значения: 0,05; 0,01; 0,005; 0,001;

? будет принята гипотеза Я0, тогда как на самом деле верной является Я[ — это ошибка второго рода, ее вероятность обозначают Р:

Правильное решение также может быть двух родов:

  • ? будет принята гипотеза Я0, тогда как и на самом деле в генеральной совокупности верна Я0; вероятность такого решения 1 - а = Р(хS0) = Р(Н0Н0);
  • ? будет принята гипотеза Я,, тогда как и на самом деле в генеральной совокупности верна Я,; вероятность такого решения 1 - Р = Р(хS |Я[) = Я(//,|Я|) называют мощностью критерия (табл. 8.1).

где максимум берется по тем S, для которых

Критерий называется наиболее мощным, если из всех возможных критериев с заданным уровнем значимости а он обладает наибольшей мощностью, т.е. если его критическая область S* является такой, что

Так как мощность критерия равна 1 - [3, то использование наиболее мощного критерия гарантирует при заданной вероятности а ошибки первого рода наименьшую, по сравнению с другими критериями, вероятность (5 ошибки второго рода.

Таблица 8.1

Г ипотеза Но

Условные вероятности того, что гипотеза Н0 будет

отклонена (будет принята /?/,)

принята

Верна

a = P(xeSH0) = P(HxH0) (ошибка первого рода)

1 - а = Р(х е S Н0) = Р(Н0Н0) (правильное решение)

Неверна (верна Н,)

l ~ Р = Р(,х е 5 |Я,) = Р(#||//|)

(правильное решение)

Р = Р(х е S |Я,) = Р(Я0|Я,) (ошибка второго рода)

Задача построения наиболее мощного критерия (критической области S*) решается для простых гипотез с помощью леммы Неймана— Пирсона. Поясним ее смысл, предположив, что случайная величина X непрерывна с одним параметром, а гипотезыН0нНх — простые.

При выполнении простой гипотезы Я0 плотность /0(х) величины А" определяется однозначно, а потому и функция правдоподобия [см. формулу (7.2.5)] также определяется однозначно, т.е. в точке х

Аналогично при выполнении простой гипотезы Я, однозначно определяются плотность f(x) и функция правдоподобия в точке л:

О правдоподобии выборки л: в отношении гипотез Нх и Я0 будем судить по отношению правдоподобия Lx/L0 (конечно, при L0 Ф 0): чем правдоподобнее выборка в условиях гипотезы Нх, тем больше Lx (по сравнению с L0), тем больше отношение Lx/L0.

Согласно лемме Неймана—Пирсона, существует такая константа, зависящая только от а, что критическая область S* наиболее мощного критерия

при этом константа С является решением уравнения

Метод построения критической области, использующий отношение правдоподобия, называют методом отношения правдоподобия.

Пример 8.1. Построение критерия проверки гипотезы Н0 : а = а0 при альтернативе //, : а = а, > а0.

Случайная величина X ~ N (а, о), причем числовое значение математического ожидания а неизвестно, а числовое значение дисперсии а2 известно. Пусть основная гипотеза Н0 : а = а0, а альтернативная гипотеза Я, : а = а, > а0 (а, — число, большее а0).

Если верна гипотеза Н0, т.с. X ~ N(a0, о), то функция правдоподобия в точке х = (Хр х2,..., х„)

если же верна гипотеза //,, т.е. X~ N(at, о), то

Тогда отношение правдоподобия таково:

Так как при а, > а0 это отношение является монотонно возрастающей функцией от х и так как в примере Lg(x) Ф 0, то неравенство Lx/L0 > С равносильно неравенству х>С, где С и С — некоторые константы. Поэтому соотношения (8.1.3) и (8.1.4) примут вид:

Известно, если X ~ N(a, д), то X ~ N (a, a/^fn ), а потому при выполнении гипотезы Н0: а = а0 получаем X ~ N^a0,a/fn 'j; тогда

При использовании этого критерия вероятность ошибки первого рода равна числу а, а вероятность ошибки второго рода, с учетом соотношений (8.1.6) и (8.1.8):

Из выргшения (8.1.10) видно, что:

  • ? с ростом вероятности а ошибки первого рода вероятность р ошибки второго рода уменьшается, если п константа;
  • ? с ростом объема п выборки вероятность Р ошибки второго рода уменьшается, если а константа.

Заметим, справедливость этих выводов нс ограничивается рамками рассмотренного примера.

Итак, наиболее мощный критерий проверки гипотезы Н0 : а = а0 при альтернативной гипотезе //, : = д, > а0 такой:

Из выргшения (8.1.10) нетрудно получить, что при заданном а вероятность ошибки второго рода, нс превосходящая р, обеспечивается объемом выборки

Итак, для X ~ N(a, о), где а неизвестно, а о известно, наиболее мощный критерий проверки гипотезы Н0 : а = а0 при альтернативной гипотезе /У, : а = ах> а0 имеет вид (8.1.9).

Нетрудно убедиться в том, что наиболее мощный критерий проверки гипотезы //0 = а0:

при //, : а = а, < а0 будет таким:

Проведем параллель между критерием (8.1.13) и интервальной оценкой (7.3.3) параметра а при известной дисперсии о2. Решив первое неравенство в (8.1.13) относительно а0, получим такую формулировку критерия проверки гипотезы Н0 : а = а0 при альтернативной гипотезе //[ : а = а, Ф а0: если для предполагаемого в основной гипотезе Н0 значения а0 параметра а выполняется неравенство

x-uaa/sfn <а0 <х + иа o/sfn , (8.1.14)

то Н0 принимают, в противном случае гипотезу Н0 отклоняют. Сравнив неравенства (7.3.3) и (8.1.14), заключаем: если предполагаемое в основной гипотезе числовое значение неизвестного параметра попадает в интервальную оценку этого параметра, отвечающую надежности 1 - а, где а — заданный уровень значимости, то гипотезу //„: а = а0 принимают; в противном случае ее отклоняют в пользу //, : а = ахФ а0. Такая формулировка наиболее мощного критерия имеет место не только в данном случае, но и при проверке гипотезы Н0 : 9 = 90 о числовом значении любого параметра нормального или асимптотически нор- мгшьного распределения, если альтернативная гипотеза //, : 9 = 9, Ф 90.

Приведем еще одну формулировку критерия (8.1.13) проверки гипотезы //0: а = а0 при //, : а = а, Ф а0. Введем статистику критерия

В терминах этой статистики область принятия гипотезы Н0 : а = а0 задастся неравенством а < z < иа или неравенством

а область отклонения будет такой:

Если значение z = ——==- статистики Z удовлетворяет неравенству а/ ып

(8.1.15), гипотезу Н0 : а = а0 принимают; в противном случае отклоняют в пользу гипотезы /У, : а = ахФ а0. Область отклонения гипотезы //0 (-со, -иа)и(ма, + °0) называют двусторонней критической областью значений статистики Z

При использовании статистики Z для проверки гипотезы Н0 : а = а0 при альтернативной гипотезе //, : а = а, > а0 область принятия Н0 задастся неравенством

и критическая область значений статистики Z будет правосторонней:

2а, +°°)-

При использовании статистики Z для проверки гипотезы Н0 : а = а0 при альтернативной гипотезе //, : а = а, < а0 область принятия Н0 задастся неравенством

и критическая область значений статистики Z будет левосторонней:

Н°,-м).

Критерии проверки гипотез о числовых значениях параметров нор- мального распределения, коэффициента корреляции и вероятности успеха в единичном испытании приведены в табл. 8.2.

В заключение отмстим: принятие основной гипотезы Н0 вовсе нс означает, что Н0 является единственно подходящей, просто предположение //„ нс противоречит выборочным данным, однако таким же свойствам могут наряду с //„ обладать и другие гипотезы.

Задача 8.1. Крупная торговая фирма желает открыть в новом районе города филиал. Известно, что фирма будет работать прибыльно, если еженедельный средний доход жителей района превышает 400 у.с. Предположив, что дисперсия дохода жителя района о2 = 400,

  • а) определите правило принятия решения, с помощью которого, основываясь на выборке п = 100 и уровне значимости а = 0,05, можно установить, что филиал будет работать прибыльно.
  • б) рассчитайте вероятность того, что при применении правила принятия решения, полученного при ответе на вопрос пункта «а», будет совершена ошибка второго рода, если средний доход за неделю достигнет 406 у.е.
  • в) считая альтернативное значение генерального среднего дохода равным 430 у.е., рассчитайте объем выборки, при котором вероятность ошибки первого рода равна 0,025, а вероятность ошибки второго рода нс превысит 0,05.

Решение, а) Фирма нс откроет филиал, если средний доход жителей нс превысит 400. Будем считать, что Н0 : а = 400, а //, : а > 400. Значение дисперсии о2 дохода известно: в этом случае //, принимают,

х — ап

если ——~ > и . По условию а0 = 400, м0) = 1,65. Поэтому /У, прини- а/у/п

мают и, следовательно, филиал открывают, если недельный среднедушевой доход 100 жителей х > 400 + 2 • 1,65 = 403,3.

Таблица 8.2

Проверка гипотез о значениях параметров нормального распределения и вероятности успеха

z(p) = iln[(l + p)/(l-p)] — преобразование Фишера б) Альтернативное значение среднего дохода равно: я, = 406 и гипотеза Н, : а = 406 > % В этом случае вероятность ошибки второго рода

в) При гипотезах //„ : а = а00 = 400), и //, : а = а, > а0 (я, = 430), объем выборки рассчитаем по формуле (8.1.11), в которой а = 0,025, a Р = 0,05. Получим:

Задача 8.2. Торговец утверждает, что он получает заказы в среднем по крайней мере от 30% предполагаемых клиентов. Можно ли при 5%-ном уровне значимости считать это утверждение неверным, если торговец получил заказы от 20 из 100 случайно отобранных потенциальных клиентов.

Решение. Будем считать, что гипотеза Н0 : р = 0,3 (т. е. число р0 = 0,3), //, : р < 0,3; п = 100, пр0 > 5, п( 1 - р0) > 5, поэтому для проверки гипотезы Н0 используем статистику Z = = = , числовое

7А)(1_Л>)/й

значение которой при р = 20/100 = 0,2 равно -2,18. Так как при а = 0,05 верно неравенство -2,18 < = -1,65, то гипотезу //0 отклоняем: с утверждением торговца нс согласимся.

Задача 8.3. По данным обследования 20 однотипных фермерских хозяйств вычислен коэффициент корреляции р = -0,47 между средней урожайностью и средней себестоимостью моркови. Постройте 95%-ный доверительный интервал для генерального коэффициента корреляции. Можно ли при 5%-ном уровне значимости считать выборочный коэффициент статистически значимым?

Решение. В таблице П. 6.1 найдем м005 = 1,95, а в табл. П. 6.5 z(-0,47)= -0,5101 и тогда, согласно (7.4.8), получим z“'(-0,9830) < р < < z"'(-0,0372), или -0,76 < р < -0,04.

Коэффициент р называют статистически значимым при заданном уровне значимости а, если при этом а гипотезу Н0 : р = 0 отклоняют в пользу гипотезы //, : р Ф 0. Используя соответствующий этой ситуации критерий (см. табл. 8.2), найдем z (-0,47) • = -2,103, и

так как |—2,103| > м0 05 = 1,95 , то гипотезу /У0 : р = 0 отклоняем, т.с. считаем р = -0,47 статистически значимым.

Замечание. Приведенный в табл. 8.2 критерий проверки гипотезы Н0 : р = р0 при //, : р Ф р0 идентичен выяснению, накроет ли построенный с надежностью 1 - а доверительный интервал для р число р0. Если это произойдет, гипотезу Н0 принимают, в противном случае се отклоняют. В задаче 1 - а = 0,95, а = 0,05 и р0 = 0 й (-0,76; -0,04) — гипотезу //0: р = 0 отклоняем.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >