Проверка гипотезы о несмещенности оценок коэффициентов регрессии
Вторая предпосылка МНК означает, что -у) = 0. Для моделей, нелинейных по оцениваемым параметрам и приводимых к линейному виду логарифмированием, средняя ошибка равна нулю для логарифмов исходных данных.
По данным табл. 2.7. можно рассчитать ~у) = -4,54747 10 13. Проверим гипотезу о нулевой средней величине остатков при а = 0,05 (х-ц)л/й . , 1Л.
с помощью критерия гнабл ---------(описание критерия см. в п. 1.10).
о
Среднее квадратическое отклонение остатков по данным табл. 2,6 равно 3,7. Тогда
^бл=(-4’54747 1°13-°)7^=-3,88359-10' (у = 0,025) = 1,96.
3,7
Поскольку инабл < zKp, принимаем гипотезу о нулевой средней величине остатков.
Несмещенность оценок коэффициентов регрессии, полученных с помощью МНК, связана с независимостью случайных остатков є, и величин х, что также исследуется в рамках соблюдения второй предпосылки МНК. На рис. 2.32 и 2.33 представлены графики зависимости случайных остатков ?( и величин х, построенные в MS EXCEL и в пакете STATISTICA. Для построения графиков использовались данные табл. 2.4 и табл. 2.7:
X |
Остатки, є, |
0,7 |
1,608695652 |
0,7 |
3,608695652 |
0,7 |
2,608695652 |
0,8 |
-6,217391304 |
0,8 |
-5,217391304 |
0,8 |
-4,217391304 |
0,9 |
0,956521739 |
0,9 |
1,956521739 |
0,9 |
2,956521739 |
0,9 |
1,956521739 |
6

Рис. 2.32. Зависимость случайных остатков ?, от значений х, построенная в MS EXCEL
Raw residuals vs. Vari
Raw residuals = .78E-4 - ,9E-4 * Vari

Van | ~x<95% confidence |
Рис. 2.33. Зависимость случайных остатков Є, от значенийх (на данном графике это Vari), построенная в пакете STATISTICA
Если остатки є, на графике расположены в виде горизонтальной полосы, то они независимы от значений х;. При наличии зависимости модель неадекватна.
Из рис. 2.32 и 2.33 видно, что остатки в рассматриваемом примере можно считать независимыми от х.
Гомоскедастичность
В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной.
Предположим, что рассматривается модель:
Й = Лх) + е/-
где є,- ошибка регрессии.
Ошибка є, должна удовлетворять условиям:
W,) = 0;
г(е,-, Е,) = 0;
Д(Е,) = а,Л (2.15)
Что касается условия (2.15), то здесь возможны два случая:
- 1) о,2 = о2 для всех / и /. Свойство постоянства дисперсий ошибок регрессии называется гомоскедастичностъю. В этом случае распределения случайных величин у, отличаются только значениями математического ожидания (объясненной части);
- 2) ог-2#о-2 . В этом случае имеет место гетероскедастичность модели (рис. 2.34), которая «портит» многие результаты статистического анализа (приводит к большим ошибкам и незначимости коэффициентов регрессии) и требует устранения.
![Примеры полей корреляции с наличием гетероскедастичности [22]](/htm/img/21/17921/57.png)

Рис. 2.34. Примеры полей корреляции с наличием гетероскедастичности [22]:
а - дисперсия остатков растет по мере увеличения х;
б - дисперсия остатков достигает максимальной величины при средних значениях переменной х и уменьшается при минимальных и максимальных значениях х;
в - максимальная дисперсия остатков при малых значениях х и дисперсия остатков однородна по мере увеличения значений х

На рис. 2.35. представлена модель с гетероскедастичным случайным членом, в которой у - размер оплаты труда, х - разряд работника. В этом примере колебание размера оплаты труда сотрудников высоких уровней значительно превосходит его вариацию для сотрудников низких уровней.

Рис. 2.35. Пример модели с гетероскедастичным случайным членом
Диагностика гетероскедастичности
Наличие гомоскедастичности или гетероскедастичности можно наглядно видеть и на графике зависимости остатков ег от теоретических значений у (рис. 2.36). Для множественной регрессии данный вид графиков является наиболее приемлемым визуальным способом изучения гомоскедастичности и гетероскедастичности.
![Гетероскедастичность остатков [22]](/htm/img/21/17921/61.png)
Рис. 2.36. Гетероскедастичность остатков [22]
Для оценки гомоскедастичности можно использовать тест ранговой корреляции Спирмена, тест Фишера-Снедекора, тест Уайта, критерий Кочрена (по выборкам одинакового объема), критерий Бартлетта (по выборкам различного объема), тест Гольдфельда-Квандта (может быть использован для выборок малого объема).
Тест ранговой корреляции Спирмена
Для нахождения коэффициента ранговой корреляции гЛ ? следует ранжировать наблюдения по значениям переменной xz и остатков sz и вычислить гхг:
п(п2 -1) ’
где с[ - разность между рангами значений х, и sz.
Коэффициент ранговой корреляции значим на уровне значимости а при п > 10, если статистика

1-а,и-2 ’
где п_2 - табличное значение Z-критерия Стьюдента при уровне значимости а и числе степеней свободы п-2.
Пример проверки гипотезы об отсутствии гетероскедастичности с помощью теста ранговой корреляции Спирмена [23]
Исходные данные для определения зависимости между государственными расходами на образование, валовым внутренним продуктом и численностью населения представлены в табл. 2.8.
Таблица 2.8
Государственные расходы на образование (ЕЕ), валовый внутренний продукт (GDP) и численность населения (Р) в выборке стран, 1980 г.
Страна |
ЕЕ |
GDP |
(EEZGDP)-IO2 |
Р |
ЕЕ/Р |
GDP/P |
Люксембург |
0,34 |
5,67 |
6,0 |
0,36 |
944 |
15750 |
Уругвай |
0,22 |
10,13 |
2,1 |
2,90 |
76 |
3493 |
Сингапур |
0,32 |
11,34 |
2,8 |
2,39 |
134 |
4745 |
Япония |
61,61 |
1040,45 |
5,9 |
116,78 |
528 |
8909 |
США |
181,30 |
2586,40 |
7,0 |
227,64 |
796 |
11362 |
Уравнение регрессии имеет вид
?? = -2,32 + 0,067GDP;
tb = -2,27; tb= 33,5;
°0 ’ “ о,-
Я2 = 0,48; F= 1,524.
- 6-2676
- 34-1155
Расчет гх е следующий:
X |
Рангх |
|е| |
Ранге |
d |
& |
5,67 |
1 |
2,28 |
17 |
-16 |
256 |
10,13 |
2 |
1,86 |
14 |
-12 |
144 |
11,34 |
3 |
1,88 |
15 |
-12 |
144 |
1040,45 |
33 |
5,67 |
29 |
4 |
16 |
2586,40 |
34 |
10,61 |
33 |
1 |
1 |
Итого |
- |
- |
- |
- |
2676 |
= 0,59;
| гх е | у/п -1 = 0,59 • л/33 = 3,39 > /0 95;33 = 1,69.
Следовательно, нулевая гипотеза об отсутствии гетероскедастич-ности при 5%-м уровне значимости отклоняется.
Тест Фишера-Снедекера
Описание теста приведено в п. 1.7. Рассмотрим применение теста Фишера-Снедекера на примере [24].
Рассматривается модель, в которой:
у - уровень оплаты труда;
Xj - уровень образования;
х2 - возраст сотрудника.
Общее число рассмотренных точек п = 150.
Получена регрессионная модель:
у = -3,06 + 3,25xj + 0,48х2,
=-3,06; =5,96; =8,35.
Коэффициент статистически не значим, так как ґ095;147= 1,98. Необходимо проверить модель на гетероскедастичность.
Решение
Из 150 точек рассматривают 50 первых и 50 последних. Вычисляют суммы квадратов остатков:
- 50
- 1=1
- 150
=3918,2.
/=1
Рассчитывают
150
У 82
3918 2
F-критерий = ’ = 4,3 8 > Fo 05;48;48 =1,61.
- 2 оУ4,1
- 2Л
- 1=1
Вывод', нулевая гипотеза об обнородности дисперсий двух наборов данных (об отсутствии гетероскедастичности) отвергается.
Тест Уайта
Идея теста Уайта заключается в оценке функции для квадратов остатков с помощью соответствующего уравнения регрессии:
??=Ж) + мги’=1,2,
где иj - случайный член.
Гипотеза об отсутствии гетероскедастичности (условие /= const) принимается в случае незначимости регрессии в целом.
Пример проверки гипотезы об отсутствии гетероскедастичности с помощью теста Уайта [24]
Рассматривается модель, в которой зависимой переменной является доход работника. Факторы: Xj - уровень образования, х2 - возраст. Функция для квадратов остатков имеет вид
є2 = 3,6 + 0, Зх2 + 0,1х2 + 0, 05xjX2 ;
h =3; tK = 1,4; th = 0,5.
’ "1 ’ ’ *2 ’
Регрессия значима. Гипотеза об отсутствии гетероскедастичности отвергается.
Критерий Бартлетта
Описание теста приведено в п. 1.8. Рассмотрим применение критерия Бартлетта на примере данных, представленных в табл. 2.9.
Таблица 2.9
Данные для проверки гипотезы
о гомоскедастичности остатков (см. табл. 2.4 и 2.7)
X |
Остатки е( |
0,7 |
1,608695652 |
0,7 |
3,608695652 |
0,7 |
2,608695652 |
0,8 |
-6,217391304 |
0,8 |
-5,217391304 |
0,8 |
-4,217391304 |
0,9 |
0,956521739 |
0,9 |
1,956521739 |
0,9 |
2,956521739 |
0,9 |
1,956521739 |
Имеются три выборки со следующими характеристиками: пх = 3 «2 = 3; л3 = 4. Дисперсии остатков: S? = l ; Si = ^', 5з=0>67.
Требуется проверить нулевую гипотезу об однородности дисперсий при условии значимости а = 0,05.
Решение
Вспомогательные расчеты, необходимые для определения среднего арифметического выборочной дисперсии, взвешенного по степеням свободы приведены в следующей таблице:
/ |
пі |
к, |
s2 |
V? |
ig*A2 |
^Ig-V,2 |
1 |
3 |
2 |
1 |
2 |
0,30103 |
0,60206 |
2 |
3 |
2 |
1 |
2 |
0,30103 |
0,60206 |
3 |
4 |
3 |
0,67 |
2 |
0,30103 |
0,90309 |
Итого |
7 |
6 |
2,10721 |
S2=^ki^)/к =2,10721/7 = 0,30103;
lg S2 =-0,52139;
K = 2,303[*-lg52-^lgS’] =
= 2,303 [7 • (-0,52139) -2,10721] = -13,2582;
2 г п
Хкр[а = 0,05;(/-1) = 2] = 6;
Так как V< Х«р, то 5набл< Хкр.
Следовательно, отвергать нулевую гипотезу об однородности дисперсий нет оснований.
Параметрический тест Гольдфельда-Квандта
Параметрический тест Гольдфельда-Квандта включает в себя следующие этапы:
- 1. Наблюдения упорядочивают в порядке возрастания переменной х.
- 2. Исключают из рассмотрения С центральных наблюдений, при п-С
этом ——— > р, где п - число наблюдении, р - число оцениваемых параметров (рекомендуемые значения для случая одного фактора: при л = 60 С= 16; при п = 30 С=8; при и = 20 С=4).
- 3. Совокупность из (и - Q разделяют на две группы (соответственно с малыми и большими значениями фактора х) и определяют по каждой из групп уравнения регрессии.
- 4. Определяют остаточную сумму квадратов для первой и второй S2 группы и находят их соотношение R =S{/ S2
При выполнении нулевой гипотезы гомоскедастичности отноше-_ _ _ п-С-2-р
ние R будет удовлетворять F-критерию с ---------степенями сво
боды для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка об однородности дисперсий остатков.
Проверим выполнение гипотезы гомоскедастичности с помощью теста Гольдфельда-Квандта по данным табл. 2.9, которые уже упорядочены в порядке возрастания х. Исключим два центральных наблюдения. Уравнения регрессии получим с помощью инструмента анализа Регрессия MS EXCEL.
На рис. 2.37 представлена остаточная сумма квадратов для первой группы, которая включает:
X |
Остатки ?, |
0,7 |
1,608695652 |
0,7 |
3,608695652 |
0,7 |
2,608695652 |
0,8 |
-6,217391304 |
На рис. 2.38 представлена остаточная сумма квадратов 52ДЛЯ второй группы, которая включает:
X |
Остатки є; |
0,9 |
0,956521739 |
0,9 |
1,956521739 |
0,9 |
2,956521739 |
0,9 |
1,956521739 |
Дисперсионный анализ |
|||||
df |
SS |
MS |
F |
Значимость F |
|
Регрессия |
1 |
58,42486 |
58,42486 |
58,42486 |
0,016688737 |
Остаток |
2 |
2 |
1 |
||
Итого |
3 |
60,42486 |
Рис. 2.37. Расчет сумм квадратов отклонений для первой группы данных
Дисперсионный анализ |
|||||
df |
SS |
MS |
F |
Значимость F |
|
Регрессия |
1 |
0,111111 |
0,111111 |
0,117647059 |
0,76429774 |
Остаток |
2 |
1,888889 |
0,944444 |
||
Итого |
3 |
2 |
Рис. 2.38. Расчет сумм квадратов отклонений для второй группы данных
Отсюда: R = 5/ S2 = 2/1,888889 = 1,058.
Число степеней свободы:
к-С-2-р _ 10-2-2-1
2 2
Для a = 0,05Fj_a(3; 3) = 9,276628. Поскольку R
Способы устранения гетероскедастичности
1. Переход к удельным показателям и выбор лучшей формы зависимости.
Рассмотрим этот метод на примере [23]. По данным табл. 2.8 проводится анализ связи между расходами на образование (ЕЕ) и ВВП (GDP).
Получены модели:
1) lgEE =-3,31 +1,061g GDP;;
tbo =-13,79; thx =21,22;
R2 = 0,93; F= 420,4;
2) ^E=_3,75 + l,371g^;
P P
tbo =-22,06; =15,22;
R2 = 0,89; F= 254,8.
В обоих случаях были оценены «частные» регрессии для первых и последних 12-ти наблюдений. Отношение Zoct1/Zoct2 составили соответственно 1,92 и 2,78. Критическое значение F-статистики при 10 и 10 степенях свободы и уровне значимости 5 % составляет 2,78.
Вывод: в обоих случаях нулевая гипотеза о гомоскедастичности не будет отклонена.
2. Использование взвешенного метода наименьших квадратов.
В работе [24] рассматривается модель, в которой зависимой переменной является доход работника. Факторы: х} - уровень образования, х2 - возраст.
Функция для квадратов остатков имеет вид:
?2 = 3,6 + 0, Зх2 + 0,1х2 + 0, 05xjX2 .
Вычисляют О, = ,
вводят X*. = — ,(/= 1, 2;/= 1, 150),
у.
Л* = ^,(/=1,-., 150).
Оценивают регрессию у* по x*j и х*2.
Получают уравнение:
у* = -6,21 + 3,58х*! +0,53х*2 ;
tb =2,18; th =0,58; th =0,53.
Dq »2
Если применить тест Уайта к последнему уравнению, то получим F=0,76 < F005.2;147 = 3,06. Откуда следует, что гетероскедастичность можно считать устраненной.