Стандартные ошибки коэффициентов регрессии

Прежде чем рассчитать стандартные ошибки коэффициентов регрессии, сформируем матрицу значений факторных переменных (3.21) и вычислим[1] элементы матрицы (АТА)-1:

Используя формулу (3.20), рассчитаем стандартные ошибки коэффициентов регрессии:

— стандартная

ошибка свободного члена уравнения.

— стандартная ошибка

коэффициента уравнения при факторной переменной х.

— стандартная ошибка

коэффициента уравнения при факторной переменной хт

Критерии Стъюдента (t-статистика):

Табличное значение критерия для условий нашего примера при v = 6 — 2—1 = 3 равноtav = 3,18. Следовательно, все коэффициенты регрессии статистически значимы.

Построение регрессионного уравнения, оценивание его параметров и их значимости можно выполнить с использованием пакета анализа Excel (программа «Регрессия»).

Для того чтобы это сделать, необходимо в меню «Сервис» войти в подменю «Анализ данных»1 и в таблице «Инструменты анализа» выбрать «Регрессия».

После того как будут введены входные данные (массив данных Y и массив данных X) и выполнен расчет, на экране появится следующая информация:

ВЫВОД ИТОГОВ:

Регрессионная статистика

Множественный Я

0,999476

Я-квадрат

0,998953

Нормированный Я-квадрат

0,998255

Стандартная ошибка

12,78207

Наблюдения

6

Дисперсионный анализ:

df

SS

MS

F

Значимость F

Регрессия

2

467 657,2

233 828,5947

1 431,183247

3.4Е-05

Остаток

3

490,1439

163,3813106

Итого

5

468 147,3

1 Если в меню «Сервис» нет подменю «Анализ данных», необходимо там же войти в меню «Надстройки» и активизировать надстройку «Пакет анализа».

Показатель

Коэффициенты

Стандартная

ошибка

/-статистика

Р-значение

/-пересечение

2 200,856

213,2756

10,31930516

0,001941015

Переменная X1

-13,9146

2,904746

-4,790285866

0,01730323

Переменная X 2

-59,058

6,277179

-9,408364326

0,002544144

Нижние 95%

Верхние 95%

/-пересечение

1522,12

2 879,59373

Переменная АЛ

-23,159

-4,670366063

Переменная Х2

-79,035

-39,08120427

Примечание: расхождения между значениями параметров объясняются погрешностью вычислений с округлениями.

Здесь /’-значение—уровень значимости а для значений /-статистики соответствующего коэффициента регрессии. Если это значение меньше 0,05 — соответствующий коэффициент является значимым с надежностью не менее 95%. Если это значение меньше 0,01 — соответствующий коэффициент является высоко значимым — с вероятностью не менее 99%. Если же /’-значение больше 0,05 — соответствующий коэффициент с большой долей вероятности является незначимым с точки зрения объяснения вариации результирующей переменной.

Для каждого коэффициента приводится доверительный интервал (нижнее 95%; верхнее 95%). Если в данный интервал попадает нулевое значение, то данный коэффициент незначим. Необходимо добиться такого результата, чтобы коэффициенты регрессии с вероятностью 95% не принимали нулевых значений. Другими словами, если введенный в модель фактор может принять нулевое значение, то его влияние на результативную переменную сомнительно и его следует убрать из модели, после чего пересчитать все коэффициенты модели.

Проверка на мультиколлинеарность:

Здесь—стандартные отклонения по выборкам незави симых переменных хх и х2,

Х]Х? —среднее значение произведения переменных, х,х2 — произведение средних значений переменных.

Коэффициент парной корреляции близок к единице. Это значит, что с математической точки зрения существует прямо пропорциональная связь между расстоянием до центра города и расстоянием до озера.

Однако в данном случае имеет место пример фиктивной или формальной мультиколлинеарности, так как очевидно, что эти переменные независимы друг от друга, т.е. расстояние до центра города никак не может быть связано с расстоянием до центра города.

Частные коэффициенты эластичности:

Первый коэффициент показывает, что при увеличении расстояния до центра города на 1% (0,837 км) цена за сотку в среднем уменьшится на 1,56% (на 11,6 д.е.), а при удалении от озера на 1% (0,05 км) — на 0,39% (2,9 д.е.). Это значит, что при удалении от центра города на расстояние чуть больше, чем 8 км цена за сотку земельного участка в среднем может уменьшиться на 120 д.е., а при приближении к озеру на 500 метров удельная цена в среднем может увеличиться на 29 д.е.

Итак, расчеты показали, что обе переменные достаточно хорошо объясняют вариацию зависимой переменной — стоимость земельного участка.

Оценка границ интервала стоимости оцениваемого участка земли:

Границы интервала удельной стоимости земельного участка рассчитаем по формуле

где V —расчетное значение оценки искомой

стоимости;

Kxn-k-i —критическое значение /-критерия при уровне значимости а и числе степеней свободы т = п - к - 1 (можно найти с помощью MS Excel);

— стандартная ошибка оценки стоимости;

X —регрессионная матрица;

X* — матрица-столбец значений факторных переменных объекта оценки с единицей в первой строке и значениями факторных переменных объекта оценки в других строках.

Для этого предварительно определим входящие в нее параметры:

Значение /-критерия: /0 05 3 = 3,18;

Используя рассчитанные таким образом параметры, определим границы интервала:

Это значит, что стоимость сотки оцениваемого участка, находящегося в 85 км от города и в 3 км от озера, с вероятностью 95% лежит в диапазоне от 800 до 900 д.е., а стоимость всего участка с той же вероятностью лежит в интервале от 8000 до 9000 д.е.

Пример 2

Требуется построить математическую модель рынка арендных ставок объектов недвижимости в зависимости от двух факторных признаков: местоположения объекта аренды и его состояния. Для построения модели подобраны 5 аналогов[2].

Допустим, что эксперты, являясь профессионалами на рынке недвижимости, грамотно оценили качество аналогов и проставленные ими баллы разумны в рамках рассматриваемой задачи (см. табл. 3.11). Здесь оценка местоположения и состояния объектов аренды выполнена в баллах методом экспертных оценок с использованием шкалы предпочтений. Объект под номером 4 имеет наилучшее местоположение, а объект под номером 2 — самое плохое.

Исходные данные

Таблица 3.11

Номер объекта

1

2

3

4

5

Местоположение, х,

5

1

7

9

3

Состояние, х2

3

2

5

4

1

Арендная ставка, у (д.е.)

200

170

240

250

180

В качестве математической модели выберем линейную модель вида:

Для оценки коэффициентов регрессии составим следующую систему уравнений:

Составим расчетную таблицу для определения коэффициентов (табл. 3.12).

Расчетная таблица для определения коэффициентов [3]

Таблица 3.12

Номер

объекта

Ме- стопо- ложе- ние, х,

Состояние, хг

Аренд

ная

ставка,

У

хг

А1

у*1

X2

Л2

У*г

~1

У

1

5

3

200

25

15

1 000

9

600

208

2

1

2

170

1

2

170

4

340

168

3

7

5

240

49

35

1 680

25

1 200

238

4

9

4

250

81

36

2 250

16

1 000

248

5

3

1

180

9

3

540

1

180

178

Сумма

25

15

1 040

165

91

5 640

55

3 320

1 040

Ср. знач.

5

3

208

33

18,2

1 128

11

664

208

После подстановки данных табл. 3.12 в систему уравнений получим:

Данная система имеет единственное решение, которому соответствует следующая модель регрессии:

Проверка качества модели

Для анализа качества полученной модели по приведенным выше статистическим критериям подготовим таблицу ошибок (табл. 3.13).

Таблица ошибок оценки

Таблица 3.13

Номер объекта, /

1

2

3

4

5

Сумма

Квадрат объясняемой ошибки (j)( - у)2

0

1 600

900

1 600

900

5 000

Квадрат необъясняемой ошибки (у. - у.)2

64

4

4

4

4

80

Используя данные таблицы ошибок, рассчитаем критерии оценки. Дисперсия ошибки оценки:

Стандартное отклонение (стандартная ошибка):

Коэффициент детерминации:

Таким образом, 98% дисперсии цен объясняется регрессионным уравнением.

Коэффициент Фишера:

Критическое значение данного критерия F для уровня значимости 95% = 5%), определяемое по таблице Фишера-Снедекора (Vj = A: = 2;v2 = /7 — /г — 1 = 5 — 2 — 1 =2), равно 19, т.е. FR > F . Это означает, что гипотеза о несоответствии заложенных в уравнении регрессии связей, реально существующим, отвергается.

Коэффициент вариации:

Небольшая величина коэффициента вариации говорит о хорошем качестве модели.

Средняя ошибка аппроксимации:

Значение данного показателя значительно ниже 7%, что говорит о высокой точности модели.

Стандартные ошибки коэффициентов регрессии

Прежде чем рассчитать стандартные ошибки коэффициентов регрессии, сформируем матрицу значений факторных переменных (3.21) и вычислим элементы матрицы (АТА)-1:

Используя формулу (3.20), рассчитаем стандартные ошибки коэффициентов регрессии:

— стандартная ошибка

свободного члена уравнения.

— стандартная ошибка

коэффициента уравнения при факторной переменной xv

— стандартная ошибка

коэффициента уравнения при факторной переменной хг Критерий Стьюдента (t-статистика):

Табличное значение критерия для условий нашего примера при v = 5 — 2—1 = 2 равно tav = 4,3.

Заметим, что коэффициент регрессии при факторной переменной х2 статистически незначим (ta2 < t ). Если мы уверены в правильности описания зависимостей, его можно попытаться исключить из уравнения регрессии. Однако следует помнить, что в условиях небольшого числа аналогов статистическая незначимость фактора может быть обусловлена как реальным отсутствием связи между результирующей переменной и фактором, так и недостаточностью статистического материала. В ряде случаев недостаточно значимый фактор стоит оставлять в модели для того, чтобы подтвердить отсутствие пропуска влияющего фактора, и, тем самым, избежать смещенности оценки.

Как и в предыдущем примере, рассчитаем параметры регрессионного уравнения с использованием пакета анализа Excel (программа «Регрессия»).

ВЫВОД ИТОГОВ:

Регрессионная статистика

Множественный Я

0,99

Я-квадрат

0,98

Нормированный Я-квадрат

0,97

Стандартная ошибка

6,32

Наблюдения

5

Дисперсионный анализ:

df

SS

MS

F

Значимость F

Регрессия

2

5 000

2 500

62,5

0,0157

Остаток

2

80

40

Итого

4

5 080

Показатель

Коэффициенты

Стандартная

ошибка

/-статистика

Р-значение

Y-пересечение

146,33

6,64

22,03

0,0021

Переменная Х:

8,33

1,67

5

0,0377

Переменная Х2

6,67

3,33

2

0,1835

Нижние 95%

Верхние 95%

/-пересечение

117,76

174,91

Переменная X,

1,16

15,50

Переменная Х2

-7,68

21,01

Из анализа Excel-таблиц следует, что P-значение переменной «состояние» слишком велико, чтобы считать ее значимой. Кроме того, ее 95% доверительный интервал содержит нулевое значение, что также говорит о ее незначимости. Однако прежде чем исключать эту переменную из уравнения, которая по всем признакам является ценообразующим фактором, необходимо дополнительно проанализировать другие критерии модели, а также проверить корректность ее спецификации.

  • [1] Умножение, транспонирование и вычисление обратных матриц достаточно просто выполняется с использованием ППП EXCEL и встроенных функций^: МУМНОЖ,ТРАНСП, МОБР.
  • [2] Следует отметить, что методы регрессионного анализа являются методами обработки количественных величин, однако при создании моделей регрессии возможноиспользование и качественных характеристик, после их предварительной оцифровки.Это делается в том случае, когда качественные характеристики трудно поддаются измерению. Именно этот случай и рассмотрен в нашем примере.
  • [3] Столбец заполнен после калибровки модели.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >