Стандартная ошибка оценки
Термин «стандартная ошибка среднего» был впервые введён Юлом (Yule 1897: 812-821). Эта величина характеризует стандартное отклонение выборочного среднего, рассчитанное по выборке размера п из генеральной совокупности, и зависит от дисперсии генеральной совокупности а (сигма) и объёма выборки (/?):
где с? — дисперсия генеральной совокупности; п — число наблюдений в выборке.
Поскольку дисперсия генеральной совокупности, как правило, неизвестна, то оценку стандартной ошибки вычисляют по формуле
2
где s — выборочная дисперсия (наилучшая оценка дисперсии популяции); п — объём выборки.
Расстояние Кука
Расстояние Кука — это мера влияния соответствующего наблюдения на уравнение регрессии. Эта величина показывает разницу между вычисленными ^-коэффициентами и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то есть основания считать, что соответствующее наблюдение (или наблюдения) смещает (смещают) оценки коэффициентов регрессии.
Расстояние Махаланобиса
Независимые переменные в уравнении регрессии можно представлять точками в многомерном пространстве (каждое наблюдение изображается точкой). В этом пространстве можно построить точку центра. Такая «средняя точка» в многомерном пространстве называется центроидом, то есть центром тяжести. Расстояние Махаланобиса рассчитывается как расстояние от наблюдаемой точки до центра тяжести в многомерном пространстве, определяемом коррелированными (неортогональными) независимыми переменными. Если же независимые переменные некоррелированы, расстояние Махаланобиса совпадает с обычным евклидовым расстоянием. Эта мера позволяет, в частности, определить, является ли данное наблюдение выбросом по отношению к остальным значениям независимых переменных.
Удалённые остатки
Удалённые остатки — это значения остатков для
соответствующих наблюдений, которые были исключены из процедуры регрессионного анализа. Если удалённый остаток значительно отличается от соответствующего стандартизованного значения остатка, то, возможно, это наблюдение является выбросом, поскольку его исключение существенно изменяет уравнение регрессии.
Нормальные и полунормальные вероятностные графики
Эти графики используют для оценки нормальности распределения переменной, то есть близости этого распределения к нормальному. Зависимость между выбранной переменной и «ожидаемыми от нормального распределения» значениями изображают на диаграмме рассеяния.
Стандартный нормальный вероятностный график строят следующим образом. Сначала все значения упорядочивают по рангу. По этим рангам рассчитывают значения z (то есть стандартизованные значения нормального распределения), предполагая, что данные имеют нормальное распределение. Эти значения z откладывают по оси Y графика.
Если наблюдаемые значения, откладываемые по оси X, распределены нормально, то все значения на графике должны попасть на прямую линию. Если значения не являются нормально распределёнными, они будут отклоняться от линии. На этом графике можно легко обнаружить выбросы. Если наблюдается очевидное несовпадение, а данные располагаются относительно линии определённым образом (например, в виде буквы S), то к ним, вероятно, можно применить какое-либо преобразование.
Полунормальный вероятностный график строят тем же способом, что и стандартный нормальный вероятностный график, с тем отличием, что рассматривают только положительную часть нормальной кривой. Таким образом, по оси Y будут откладываться только положительные нормальные значения. Этот график удобно использовать, когда нужно игнорировать знак остатков, то есть когда пользователя интересует только распределение их абсолютных значений.