Проверка гипотезы о несмещенности оценок коэффициентов регрессии

Вторая предпосылка МНК означает, что -у) = 0. Для моделей, нелинейных по оцениваемым параметрам и приводимых к линейному виду логарифмированием, средняя ошибка равна нулю для логарифмов исходных данных.

По данным табл. 2.7. можно рассчитать ~у) = -4,54747 10 13. Проверим гипотезу о нулевой средней величине остатков при а = 0,05 (х-ц)л/й . , .

с помощью критерия гнабл ---------(описание критерия см. в п. 1.10).

о

Среднее квадратическое отклонение остатков по данным табл. 2,6 равно 3,7. Тогда

^бл=(-454747 1°13)7^=-3,88359-10' (у = 0,025) = 1,96.

3,7

Поскольку инабл < zKp, принимаем гипотезу о нулевой средней величине остатков.

Несмещенность оценок коэффициентов регрессии, полученных с помощью МНК, связана с независимостью случайных остатков є, и величин х, что также исследуется в рамках соблюдения второй предпосылки МНК. На рис. 2.32 и 2.33 представлены графики зависимости случайных остатков ?( и величин х, построенные в MS EXCEL и в пакете STATISTICA. Для построения графиков использовались данные табл. 2.4 и табл. 2.7:

X

Остатки, є,

0,7

1,608695652

0,7

3,608695652

0,7

2,608695652

0,8

-6,217391304

0,8

-5,217391304

0,8

-4,217391304

0,9

0,956521739

0,9

1,956521739

0,9

2,956521739

0,9

1,956521739

6

Зависимость случайных остатков ?, от значений х, построенная в MS EXCEL

Рис. 2.32. Зависимость случайных остатков ?, от значений х, построенная в MS EXCEL

Raw residuals vs. Vari

Raw residuals = .78E-4 - ,9E-4 * Vari

Van | ~x<95% confidence |

Рис. 2.33. Зависимость случайных остатков Є, от значенийх (на данном графике это Vari), построенная в пакете STATISTICA

Если остатки є, на графике расположены в виде горизонтальной полосы, то они независимы от значений х;. При наличии зависимости модель неадекватна.

Из рис. 2.32 и 2.33 видно, что остатки в рассматриваемом примере можно считать независимыми от х.

Гомоскедастичность

В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной.

Предположим, что рассматривается модель:

Й = Лх) + е/-

где є,- ошибка регрессии.

Ошибка є, должна удовлетворять условиям:

W,) = 0;

г(е,-, Е,) = 0;

Д(Е,) = а,Л (2.15)

Что касается условия (2.15), то здесь возможны два случая:

  • 1) о,2 = о2 для всех / и /. Свойство постоянства дисперсий ошибок регрессии называется гомоскедастичностъю. В этом случае распределения случайных величин у, отличаются только значениями математического ожидания (объясненной части);
  • 2) ог-2#о-2 . В этом случае имеет место гетероскедастичность модели (рис. 2.34), которая «портит» многие результаты статистического анализа (приводит к большим ошибкам и незначимости коэффициентов регрессии) и требует устранения.
Примеры полей корреляции с наличием гетероскедастичности [22]

Рис. 2.34. Примеры полей корреляции с наличием гетероскедастичности [22]:

а - дисперсия остатков растет по мере увеличения х;

б - дисперсия остатков достигает максимальной величины при средних значениях переменной х и уменьшается при минимальных и максимальных значениях х;

в - максимальная дисперсия остатков при малых значениях х и дисперсия остатков однородна по мере увеличения значений х

На рис. 2.35. представлена модель с гетероскедастичным случайным членом, в которой у - размер оплаты труда, х - разряд работника. В этом примере колебание размера оплаты труда сотрудников высоких уровней значительно превосходит его вариацию для сотрудников низких уровней.

Пример модели с гетероскедастичным случайным членом

Рис. 2.35. Пример модели с гетероскедастичным случайным членом

Диагностика гетероскедастичности

Наличие гомоскедастичности или гетероскедастичности можно наглядно видеть и на графике зависимости остатков ег от теоретических значений у (рис. 2.36). Для множественной регрессии данный вид графиков является наиболее приемлемым визуальным способом изучения гомоскедастичности и гетероскедастичности.

Гетероскедастичность остатков [22]

Рис. 2.36. Гетероскедастичность остатков [22]

Для оценки гомоскедастичности можно использовать тест ранговой корреляции Спирмена, тест Фишера-Снедекора, тест Уайта, критерий Кочрена (по выборкам одинакового объема), критерий Бартлетта (по выборкам различного объема), тест Гольдфельда-Квандта (может быть использован для выборок малого объема).

Тест ранговой корреляции Спирмена

Для нахождения коэффициента ранговой корреляции гЛ ? следует ранжировать наблюдения по значениям переменной xz и остатков sz и вычислить гхг:

п(п2 -1) ’

где с[ - разность между рангами значений х, и sz.

Коэффициент ранговой корреляции значим на уровне значимости а при п > 10, если статистика

1-а,и-2 ’

где п_2 - табличное значение Z-критерия Стьюдента при уровне значимости а и числе степеней свободы п-2.

Пример проверки гипотезы об отсутствии гетероскедастичности с помощью теста ранговой корреляции Спирмена [23]

Исходные данные для определения зависимости между государственными расходами на образование, валовым внутренним продуктом и численностью населения представлены в табл. 2.8.

Таблица 2.8

Государственные расходы на образование (ЕЕ), валовый внутренний продукт (GDP) и численность населения (Р) в выборке стран, 1980 г.

Страна

ЕЕ

GDP

(EEZGDP)-IO2

Р

ЕЕ/Р

GDP/P

Люксембург

0,34

5,67

6,0

0,36

944

15750

Уругвай

0,22

10,13

2,1

2,90

76

3493

Сингапур

0,32

11,34

2,8

2,39

134

4745

Япония

61,61

1040,45

5,9

116,78

528

8909

США

181,30

2586,40

7,0

227,64

796

11362

Уравнение регрессии имеет вид

?? = -2,32 + 0,067GDP;

tb = -2,27; tb= 33,5;

°0 ’ “ о,-

Я2 = 0,48; F= 1,524.

  • 6-2676
  • 34-1155

Расчет гх е следующий:

X

Рангх

|е|

Ранге

d

&

5,67

1

2,28

17

-16

256

10,13

2

1,86

14

-12

144

11,34

3

1,88

15

-12

144

1040,45

33

5,67

29

4

16

2586,40

34

10,61

33

1

1

Итого

-

-

-

-

2676

= 0,59;

| гх е | у/п -1 = 0,59 • л/33 = 3,39 > /0 95;33 = 1,69.

Следовательно, нулевая гипотеза об отсутствии гетероскедастич-ности при 5%-м уровне значимости отклоняется.

Тест Фишера-Снедекера

Описание теста приведено в п. 1.7. Рассмотрим применение теста Фишера-Снедекера на примере [24].

Рассматривается модель, в которой:

у - уровень оплаты труда;

Xj - уровень образования;

х2 - возраст сотрудника.

Общее число рассмотренных точек п = 150.

Получена регрессионная модель:

у = -3,06 + 3,25xj + 0,48х2,

=-3,06; =5,96; =8,35.

Коэффициент статистически не значим, так как ґ095;147= 1,98. Необходимо проверить модель на гетероскедастичность.

Решение

Из 150 точек рассматривают 50 первых и 50 последних. Вычисляют суммы квадратов остатков:

  • 50
  • 1=1
  • 150

=3918,2.

/=1

Рассчитывают

150

У 82

3918 2

F-критерий = ’ = 4,3 8 > Fo 05;48;48 =1,61.

  • 2 оУ4,1
  • 1=1

Вывод', нулевая гипотеза об обнородности дисперсий двух наборов данных (об отсутствии гетероскедастичности) отвергается.

Тест Уайта

Идея теста Уайта заключается в оценке функции для квадратов остатков с помощью соответствующего уравнения регрессии:

??=Ж) + мги’=1,2,

где иj - случайный член.

Гипотеза об отсутствии гетероскедастичности (условие /= const) принимается в случае незначимости регрессии в целом.

Пример проверки гипотезы об отсутствии гетероскедастичности с помощью теста Уайта [24]

Рассматривается модель, в которой зависимой переменной является доход работника. Факторы: Xj - уровень образования, х2 - возраст. Функция для квадратов остатков имеет вид

є2 = 3,6 + 0, Зх2 + 0,1х2 + 0, 05xjX2 ;

h =3; tK = 1,4; th = 0,5.

’ "1 ’ ’ *2 ’

Регрессия значима. Гипотеза об отсутствии гетероскедастичности отвергается.

Критерий Бартлетта

Описание теста приведено в п. 1.8. Рассмотрим применение критерия Бартлетта на примере данных, представленных в табл. 2.9.

Таблица 2.9

Данные для проверки гипотезы

о гомоскедастичности остатков (см. табл. 2.4 и 2.7)

X

Остатки е(

0,7

1,608695652

0,7

3,608695652

0,7

2,608695652

0,8

-6,217391304

0,8

-5,217391304

0,8

-4,217391304

0,9

0,956521739

0,9

1,956521739

0,9

2,956521739

0,9

1,956521739

Имеются три выборки со следующими характеристиками: пх = 3 «2 = 3; л3 = 4. Дисперсии остатков: S? = l ; Si = ^',=0>67.

Требуется проверить нулевую гипотезу об однородности дисперсий при условии значимости а = 0,05.

Решение

Вспомогательные расчеты, необходимые для определения среднего арифметического выборочной дисперсии, взвешенного по степеням свободы приведены в следующей таблице:

/

пі

к,

s2

V?

ig*A2

^Ig-V,2

1

3

2

1

2

0,30103

0,60206

2

3

2

1

2

0,30103

0,60206

3

4

3

0,67

2

0,30103

0,90309

Итого

7

6

2,10721

S2=^ki^)/к =2,10721/7 = 0,30103;

lg S2 =-0,52139;

K = 2,303[*-lg52-^lgS’] =

= 2,303 [7 • (-0,52139) -2,10721] = -13,2582;

2 г п

Хкр[а = 0,05;(/-1) = 2] = 6;

Так как V< Х«р, то 5набл< Хкр.

Следовательно, отвергать нулевую гипотезу об однородности дисперсий нет оснований.

Параметрический тест Гольдфельда-Квандта

Параметрический тест Гольдфельда-Квандта включает в себя следующие этапы:

  • 1. Наблюдения упорядочивают в порядке возрастания переменной х.
  • 2. Исключают из рассмотрения С центральных наблюдений, при п-С

этом ——— > р, где п - число наблюдении, р - число оцениваемых параметров (рекомендуемые значения для случая одного фактора: при л = 60 С= 16; при п = 30 С=8; при и = 20 С=4).

  • 3. Совокупность из (и - Q разделяют на две группы (соответственно с малыми и большими значениями фактора х) и определяют по каждой из групп уравнения регрессии.
  • 4. Определяют остаточную сумму квадратов для первой и второй S2 группы и находят их соотношение R =S{/ S2

При выполнении нулевой гипотезы гомоскедастичности отноше-_ _ _ п-С-2-р

ние R будет удовлетворять F-критерию с ---------степенями сво

боды для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка об однородности дисперсий остатков.

Проверим выполнение гипотезы гомоскедастичности с помощью теста Гольдфельда-Квандта по данным табл. 2.9, которые уже упорядочены в порядке возрастания х. Исключим два центральных наблюдения. Уравнения регрессии получим с помощью инструмента анализа Регрессия MS EXCEL.

На рис. 2.37 представлена остаточная сумма квадратов для первой группы, которая включает:

X

Остатки ?,

0,7

1,608695652

0,7

3,608695652

0,7

2,608695652

0,8

-6,217391304

На рис. 2.38 представлена остаточная сумма квадратов 52ДЛЯ второй группы, которая включает:

X

Остатки є;

0,9

0,956521739

0,9

1,956521739

0,9

2,956521739

0,9

1,956521739

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

1

58,42486

58,42486

58,42486

0,016688737

Остаток

2

2

1

Итого

3

60,42486

Рис. 2.37. Расчет сумм квадратов отклонений для первой группы данных

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

1

0,111111

0,111111

0,117647059

0,76429774

Остаток

2

1,888889

0,944444

Итого

3

2

Рис. 2.38. Расчет сумм квадратов отклонений для второй группы данных

Отсюда: R = 5/ S2 = 2/1,888889 = 1,058.

Число степеней свободы:

к-С-2-р _ 10-2-2-1

2 2

Для a = 0,05Fj_a(3; 3) = 9,276628. Поскольку Ra(3; 3), отвергать нулевую гипотезу об однородности дисперсий нет оснований.

Способы устранения гетероскедастичности

1. Переход к удельным показателям и выбор лучшей формы зависимости.

Рассмотрим этот метод на примере [23]. По данным табл. 2.8 проводится анализ связи между расходами на образование (ЕЕ) и ВВП (GDP).

Получены модели:

1) lgEE =-3,31 +1,061g GDP;;

tbo =-13,79; thx =21,22;

R2 = 0,93; F= 420,4;

2) ^E=_3,75 + l,371g^;

P P

tbo =-22,06; =15,22;

R2 = 0,89; F= 254,8.

В обоих случаях были оценены «частные» регрессии для первых и последних 12-ти наблюдений. Отношение Zoct1/Zoct2 составили соответственно 1,92 и 2,78. Критическое значение F-статистики при 10 и 10 степенях свободы и уровне значимости 5 % составляет 2,78.

Вывод: в обоих случаях нулевая гипотеза о гомоскедастичности не будет отклонена.

2. Использование взвешенного метода наименьших квадратов.

В работе [24] рассматривается модель, в которой зависимой переменной является доход работника. Факторы: х} - уровень образования, х2 - возраст.

Функция для квадратов остатков имеет вид:

?2 = 3,6 + 0, Зх2 + 0,1х2 + 0, 05xjX2 .

Вычисляют О, = ,

вводят X*. = — ,(/= 1, 2;/= 1, 150),

у.

Л* = ^,(/=1,-., 150).

Оценивают регрессию у* по x*j и х*2.

Получают уравнение:

у* = -6,21 + 3,58х*! +0,53х*2 ;

tb =2,18; th =0,58; th =0,53.

Dq »2

Если применить тест Уайта к последнему уравнению, то получим F=0,76 < F005.2;147 = 3,06. Откуда следует, что гетероскедастичность можно считать устраненной.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >