Анализ остатков
В системе STATISTICA представлен большой комплекс методов для анализа остатков. В процессе исследования остатков необходимо обратить внимание на то, что регрессионная модель считается адекватной, если в ряду остатков нет систематической составляющей, то есть ряд остатков не имеет закономерности, а его элементы случайны.
Чтобы приступить к анализу остатков, необходимо нажать на кнопку Perform residual analysis в окне результатов регрессионного анализа (рис. 3.8). В результате появится окно анализа остатков (рис. 3.9).

Рис. 3.9. Окно анализа остатков
Кнопка Summary: Residuals & predicted вызовет на экран таблицу с рассчитанными статистиками для каждого наблюдения, основанными на остатках (табл. 3.3).
Цель изучения представленных в таблице показателей — обнаружение выбросов. Аналитики считают, что при N < 100 оценки коэффициентов регрессии неустойчивы, поскольку отдельные аномальные наблюдения могут значительно влиять на них; поэтому начинать анализ остатков рекомендуется именно с этой процедуры, а после удаления всех выбросов необходимо повторить полный регрессионный анализ (Салин, Чурилова 2002: 109).
Предсказанные значения и остатки
Obse rved Value |
Predic ted Value |
Resid ual |
Standard Pred. v |
Standard Residual |
Std. Err. Pred. Val. |
Mahala- nobis Distance |
Deleted Residual |
Cook’s Distance |
|
1 |
13,0 |
11,066 |
1,933 |
-1,460 |
0,9556 |
1,2434 |
2,1333 |
3,107 |
0,4455 |
2 |
14,0 |
12,716 |
1,283 |
-1,095 |
0,6343 |
1,0337 |
1,2000 |
1,736 |
0,0962 |
3 |
13,0 |
14,366 |
-1,366 |
-0,730 |
0,6755 |
0,8530 |
0,5333 |
-1,662 |
0,0600 |
4 |
15,0 |
16,016 |
-1,016 |
-0,365 |
-0,5025 |
0,7231 |
0,1333 |
-1,165 |
0,0212 |
5 |
17,0 |
17,666 |
-0,666 |
0,000 |
-0,3295 |
0,6743 |
0,0000 |
-0,750 |
0,0076 |
6 |
18,0 |
19,316 |
-1,316 |
0,365 |
-0,6508 |
0,7231 |
0,1333 |
-1,509 |
0,0355 |
Obse rved Value |
Predic ted Value |
Resid ual |
Standard Pred. v |
Standard Residual |
Std. Err. Pred. Val. |
Mahala- nobis Distance |
Deleted Residual |
Cook’s Distance |
|
7 |
19,0 |
20,966 |
-1,966 |
0,730 |
-0,9721 |
0,8530 |
0,5333 |
-2,391 |
0,1242 |
8 |
22,0 |
22,616 |
-0,616 |
1,095 |
-0,3048 |
1,0337 |
1,2000 |
-0,834 |
0,0222 |
9 |
28,0 |
24,266 |
3,733 |
1,460 |
1,8453 |
1,2434 |
2,1333 |
6,000 |
1,6614 |
Minimu m |
13,0 |
11,066 |
-1,966 |
-1,460 |
-0,9721 |
0,6743 |
0,0000 |
-2,391 |
0,0076 |
Maximu m |
28,0 |
24,266 |
3,733 |
1,460 |
1,8453 |
1,2434 |
2,1333 |
6,000 |
1,6614 |
Mean |
17,7 |
17,666 |
0,000 |
0,000 |
-0,0000 |
0,9312 |
0,8888 |
0,281 |
0,2749 |
Obse rved Value |
Predic ted Value |
Resid ual |
Standard Pred. v |
Standard Residual |
Std. Err. Pred. Val. |
Mahala- nobis Distance |
Deleted Residual |
Cook’s Distance |
|
Median |
17,0 |
17,666 |
-0,666 |
0,000 |
-0,3295 |
0,8530 |
0,5333 |
-0,834 |
0,0600 |
Колонки данной таблицы имеют следующие названия.
- • Observed Value — наблюдаемые значения зависимой переменной.
- • Predicted Value — предсказанные значения зависимой переменной, выравненные с помощью регрессионной модели.
- • Residual — остатки, то есть наблюдаемые значения минус предсказанные с помощью уравнения регрессии (показатель Mean данного столбца равен нулю, что свидетельствует о правильном построении регрессионной модели).
- • Standard Pred. v — стандартные предсказанные значения (стандартизованные, рассчитанные по уравнению регрессии значения зависимой переменной).
- • Standard Residual — стандартные остатки (стандартизованные значения остатков, вычисленные как разница между наблюдаемыми и предсказанными значениями, делённая на остаточную среднеквадратическую ошибку).
- • Std. Err. Pred. Val. — стандартные ошибки предсказанных значений (ошибки нестандартизованных предсказанных значений).
- • Mahalanobis Distance — расстояние Махаланобиса, то есть расстояние от наблюдаемой точки до центра тяжести в пространстве, определённом независимыми переменными. Если независимые переменные не коррелируют между собой, то расстояние Махаланобиса совпадает с обычным евклидовым расстоянием. Эта мера позволяет определить, является ли данное наблюдение выбросом по отношению ко всем остальным или нет.
- • Deleted Residual — удалённые остатки. Стандартизованное значение остатка, которое имело бы данное наблюдение, если его значение не учитывать при расчётах регрессионного уравнения. Если удалённый остаток значительно отличается от соответствующего стандартизованного значения остатка, то возможно, что это наблюдение является выбросом, поскольку его исключение изменяет уравнение регрессии.
• Cook's Distance — расстояние Кука. Мера влияния соответствующего наблюдения на регрессионное уравнение, показывающая различие между вычисленными значениями нестандартизованных коэффициентов регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. Все расстояния Кука должны иметь примерно одинаковую величину. Если это не так, то соответствующее наблюдение смещает оценки регрессионных коэффициентов.
Кнопка Durbin-Watson statistic (см. рис. 3.9) позволяет проверить условие независимости остатков между собой — в частности, установить отсутствие автокорреляции в остатках. Значение коэффициента в статистике Дарбина-Уотсона изменяется от 0 до 4. Чем ближе данный показатель к 0, тем вероятнее положительная автокорреляция; чем ближе к 4, тем вероятнее отрицательная корреляция. Если коэффициент Дарбина-Уотсона равен 2, то в остатках нет автокорреляции и модель построена адекватно.
Кроме того, в системе STATISTICA много средств для визуализации анализа остатков и предсказаний.
В частности, при выборе закладки Residuals в окне анализа остатков (см. рис. 3.9) на экране появится ряд кнопок, позволяющих строить графики остатков (рис. 3.10).

Рис. ЗЛО. Окно анализа остатков (графики остатков)
Кнопка Histogram of residuals (Гистограмма остатков с наложенной нормальной кривой) позволяет проверить условие нормальности остатков: программа строит гистограмму остатков и накладывает кривую нормального распределения (рис. 3.11).

Рис. 3.11. Гистограмма остатков с наложенной нормальной
кривой
Кнопка Casewise plot of residuals (Построчный график исходных остатков) открывает таблицу результатов анализа (рис. 3.12), в первом столбце которой остатки представлены построчно. Предварительно необходимо указать тип анализируемых остатков в правой части окна, представленного на рисунке ЗЛО. В остальных столбцах таблицы вычисляются значения всех статистик остатков.

Рис. 3.12. Построчный трафик исходных остатков
Кнопка Residuals vs. independent var. (График исходных остатков и значений независимой переменной) позволяет построить график исходных остатков и значений независимой переменной. Если нажать на данную кнопку, появится окно — в нём следует указать переменную, с использованием значений которой пользователь хочет построить зависимость. В результате на экране появится график (рис. 3.13). Кнопка Histogram of observed (Гистограмма распределений наблюдений с наложением нормальной кривой) позволяет рассмотреть распределение исходных значений зависимой переменной с наложением кривой нормального распределения (рис. 3.14).

Рис. 3.13. График исходных остатков и значений независимой переменной

Рис. 3.14. Гистограмма распределений наблюдений с наложением кривой нормального распределения
Аналогичные возможности система STATISTICA предоставляет для работы с предсказаниями (рис. 3.15). Окно анализа остатков приведено на рисунке 3.16.

Рис. 3.15. Окно анализа остатков (графики предсказаний)

Рис. 3.16. Окно анализа остатков (графики рассеяния)
Закладка Scatterplots (Графики рассеяния) в окне анализа остатков (рис. 3.16) даёт возможность построить различные графики рассеяния.
В частности, кнопка Predicted vs. residuals (График предсказанных значений и их остатков) показывает расположение остатков в следующей форме: на оси X представлены значения зависимой переменной, предсказанные уравнением регрессии, а на оси Y — соответствующие им нестандартизованные остатки (рис. 3.17). Использование данного графика может быть полезным при проверке предположения о линейности связи между зависимой и независимой переменными. Если зависимость линейная, то значения остатков располагаются в виде «облака» около центральной линии. Если зависимость нелинейная, то расположение остатков будет иное.

Рис. 3.17. График предсказанных значений и их остатков
Кнопка Predicted vs. squared residuals (График предсказанных значений и их квадраты) позволяет визуально выделить наиболее отклоняющиеся остатки и обнаружить выбросы (рис. 3.18).

Рис. 3.18. График предсказанных значений и их квадраты
Кнопка Predicted vs. observed (График предсказанных и наблюдаемых значений) показывает, насколько хорошо построенная модель описывает изучаемое явление (рис. 3.19).

Рис. 3.19. График предсказанных и наблюдаемых значений
Кнопки Observed vs. residuals (Остатки и значения наблюдений) и Observed vs. squared residuals (Квадраты остатков и значения наблюдений) необходимы для определения отклоняющихся остатков и обнаружения выбросов (рис. 3.20 и 3.21).

Рис. 3.20. График остатков и наблюдаемых значений

Рис. 3.21. График квадратов остатков и наблюдаемых значений
Кнопка Residuals vs. deleted residuals (Остатки и удалённые остатки) позволяет увидеть разницу между удалёнными остатками и обычными стандартизованными остатками. Удалённые остатки представляют собой стандартизованные остатки, которые получились бы при исключении соответствующего наблюдения из процедуры оценивания коэффициентов регрессионного уравнения (Салин, Чурилова 2002: 114-115). Если наблюдаются значительные
расхождения между удалёнными и обычными остатками, то это свидетельствует о недостаточной устойчивости регрессионных коэффициентов. В этом случае значения регрессионных коэффициентов зависят от отдельных наблюдений, которые, вероятно, являются выбросами.
Для визуального представления зависимости между исходными значениями переменных (в частности, зависимой и независимой переменных) можно воспользоваться кнопкой Bivariate correlation (Двумерная корреляция) — см. рис. 3.22.

Рис. 3.22. Двумерная корреляция
Кнопка Partial residual plot (График частной корреляции остатков) позволяет построить график частной корреляции остатков (рис. 3.23).

Рис. 3.23. График частной корреляции остатков
Кроме того, в системе STATISTICA предусмотрен анализ остатков с использованием вероятностных графиков (рис. 3.24).

Рис. 3.24. Окно анализа остатков (вероятностные графики)
Кнопка Normal plot of residuals (Нормальный вероятностный график) в окне анализа остатков (рис. 3.24) позволяет строить график остатков на нормальной вероятностной бумаге (рис. 3.25). При построении регрессионного уравнения предполагается, что значения остатков распределены нормально, а регрессионная модель линейная. Если одно из этих предположений существенно нарушается, то значения оценок коэффициентов регрессии либо завышены, либо занижены, а также смещена значимость критериев. Если регрессионная модель адекватная, то значения остатков распределены нормально.

Рис. 3.25. График остатков на нормальной вероятностной бумаге
График остатков на нормальной вероятностной бумаге помогает визуально проверить наличие нормального распределения значений остатков. Так, если остатки имеют распределение, отличное от нормального, то точки на графике будут отклоняться от прямой. Также на данном графике видны выбросы. Если регрессионная модель плохо согласуется с наблюдениями и данные располагаются специфическим образом около прямой линии (например, имеют S-образный вид), то, возможно, требуется нелинейное преобразование зависимой переменной.
График остатков на полунормальной вероятностной бумаге строится путём выбора кнопки Half-normal plot (Полунормальный вероятностный график) в окне анализа остатков (рис. 3.24).

Рис. 3.26. График остатков на полунормальной вероятностной бумаге
Данный график строится так же (рис. 3.26), как и график остатков на нормальной вероятностной бумаге. Отличия в том, что в этом случае рассматривается только положительная часть распределения и только положительные нормальные значения изображаются на оси у. Этот график используется, когда аналитика не интересует знак остатка и определяющую роль играют только абсолютные значения.
График остатков и отклонений от ожидаемых значений (рис. 3.27) можно построить путём нажатия кнопки Detrended normal plot (График остатков и отклонений от ожидаемых значений) в окне анализа остатков (см. рис. 3.24).

Рис. 3.27. График остатков и отклонений от ожидаемых значений
Анализ остатков в системе STATISTICA предполагает анализ аномальных наблюдений на закладке Outliers (Выбросы) — см. рис. 3.28. Кнопка Casewise plot of outliers (Построчный график выбросов) позволяет провести анализ аномальных наблюдений (рис. 3.29). Например, на рисунке 3.29 выделено наблюдение №9, которое является аномальным, то есть его значения могут сместить оценки регрессионных коэффициентов.
Прежде чем проводить анализ выбросов, необходимо определить в правой части окна настройки для выбора того или иного типа анализа выбросов:
- - только наблюдения, для которых абсолютное значение стандартизованного остатка больше +2;
- - 100 наиболее удалённых наблюдений,
отсортированных в порядке убывания одной из следующих статистик: стандартизованных предсказаний значений,
стандартизованных остатков, расстояний Махаланобиса, удалённых остатков, расстояний Кука.

Рис. 3.28. Окно анализа остатков (выбросов)

Рис. 3.29. Построчный график выбросов
После того как проведена оценка адекватности регрессионной модели, можно приступать к следующему этапу регрессионного анализа — к этапу формирования прогноза.
Предсказание зависимой переменной
Как видно из рисунка 3.30 (см. рис. 3.6 — «Окно результатов регрессионного анализа»), на закладке Residuals / assumptions / prediction имеется кнопка Predict dependent variable (Предсказать зависимую переменную). Если нажать данную кнопку, на экране появляется окно Specify values for indep. vars (Задать значения независимых переменных), где пользователь может вводить значения независимых переменных и рассчитывать значения зависимой переменной.

Рис. 3.30. Окно предсказания зависимой переменной
После введения необходимых данных и нажатия кнопки ОК на экране появится таблица, в которой приводятся результаты прогноза зависимой переменной (табл. 3.4).
Таблица 3.4
Предсказание значения
B-Weight |
Value |
В-Weight Value |
|
Varl |
1,650000 |
144,0000 |
237,6000 |
Intercept |
7,7667 |
||
Predicted |
245,3667 |
||
-95,0%CL |
160,1244 |
||
+95,0%CL |
330,6089 |
В первой строке таблицы указаны коэффициент при переменной Var 1, введённое пользователем значение независимой переменной, значение независимой переменной с учётом коэффициента.
Во второй строке указано значение свободного члена в уравнении регрессии, в третьей строке — предсказанное значение зависимой переменной.
Методы нелинейной регрессии представлены в модуле Нелинейная оценка.