Примеры проведения корреляционного анализа
Пример 2.1. Приведём расчёт коэффициента корреляции между двумя переменными, значения которых представлены в таблице 2.3.
Таблица 2.3
Исходные данные по двум переменным
Переменные |
X |
Y |
X2 |
Y2 |
XY |
Исходные данные |
1 |
2 |
1 |
4 |
2 |
3 |
5 |
9 |
25 |
15 |
|
5 |
8 |
25 |
64 |
40 |
|
7 |
11 |
49 |
121 |
77 |
|
9 |
14 |
81 |
196 |
126 |
|
11 |
17 |
121 |
289 |
187 |
|
13 |
20 |
169 |
400 |
260 |
|
15 |
23 |
225 |
529 |
345 |
|
17 |
26 |
289 |
676 |
442 |
|
Итого |
81 |
126 |
969 |
2304 |
1494 |
Суммы, полученные из данной таблицы, следующие:
Затем средние значений х иу могут быть вычислены так:

Линейный коэффициент корреляции вычисляют так:
Значение линейного коэффициента корреляции соответствует + 1, что свидетельствует об идеальной зависимости переменных.
Пример 2.2. Расчёт коэффициента корреляции между переменными, которые независимы друг от друга. Исходные данные представлены в таблице 2.4.
Таблица 2.4
Исходные данные по двум переменным
Переменные |
X |
Y |
X2 |
Y2 |
XY |
Исходные данные |
1 |
3 |
1 |
9 |
3 |
1 |
7 |
1 |
49 |
7 |
|
5 |
3 |
25 |
9 |
15 |
|
7 |
4 |
49 |
16 |
28 |
|
9 |
22 |
81 |
484 |
198 |
|
1 |
22 |
1 |
484 |
22 |
|
13 |
20 |
169 |
400 |
260 |
|
15 |
13 |
225 |
169 |
195 |
|
17 |
22 |
289 |
484 |
374 |
|
Итого |
69 |
116 |
841 |
2104 |
1102 |
Суммы, полученные из данной таблицы, следующие:
Затем средние значений х иу могут быть вычислены так:

Линейный коэффициент корреляции вычисляют так:
Значение линейного коэффициента корреляции незначимо и равно 0,49, что свидетельствует об отсутствии зависимости между переменными.
Задания для самостоятельной работы
Задание 1. Создайте в программном продукте STATISTICA базу данных на основе значений таблицы 2.5.
В этой таблице представлены данные о государственных расходах на образование, о валовом внутреннем продукте и о численности населения в 34 странах.
Исходные данные
(приводятся по: Дуброва, Павлов, Ткачёв 2002: 92-93)
Страна |
Г осударственные расходы на образование (у) |
Валовой внутренний продукт (л:) |
Численность населения (Р) |
Люксембург |
0,34 |
5,67 |
0,36 |
Уругвай |
0,22 |
10,13 |
2,90 |
Сингапур |
0,32 |
11,34 |
2,39 |
Ирландия |
1,23 |
18,88 |
3,44 |
Израиль |
1,81 |
20,94 |
3,87 |
Венгрия |
1,02 |
22,16 |
10,71 |
Новая Зеландия |
1,27 |
23,83 |
3,10 |
Португалия |
1,07 |
24,67 |
9,93 |
Г онконг |
0,67 |
27,56 |
5,07 |
Чили |
1,25 |
27,57 |
11,10 |
Г реция |
0,75 |
40,15 |
9,60 |
Финляндия |
2,60 |
51,62 |
4,76 |
Норвегия |
4,90 |
57,71 |
4,09 |
Югославия (бывшая) |
3,50 |
63,03 |
22,34 |
Дания |
4,45 |
66,32 |
5,12 |
Турция |
1,60 |
66,97 |
44,92 |
Австрия |
4,26 |
76,88 |
7,51 |
Швейцария |
5,31 |
101,65 |
6,37 |
Саудовская Аравия |
6,40 |
115,97 |
8,37 |
Бельгия |
7,15 |
119,49 |
9,86 |
Швеция |
11,22 |
124,15 |
8,31 |
Австралия |
8,66 |
140,98 |
14,62 |
Аргентина |
5,56 |
153,85 |
27,06 |
Нидерланды |
13,41 |
169,38 |
14,14 |
Мексика |
5,46 |
186,33 |
67,40 |
Испания |
4,79 |
211,78 |
37,43 |
Бразилия |
8,92 |
249,72 |
123,03 |
Канада |
18,90 |
261,41 |
23,94 |
Италия |
15,95 |
395,52 |
57,04 |
Продолжение таблицы 2.5
Страна |
Г осударствен- иые расходы на образование (У) |
Валовой внутренний продукт (л:) |
Численность населения (Р) |
Великобритания |
29,90 |
534,97 |
55,95 |
Франция |
33,59 |
655,29 |
53,71 |
ФРГ |
38,62 |
815,00 |
6,56 |
Япония |
61,61 |
1040,45 |
116,78 |
США |
181,30 |
2586,40 |
227,64 |
Проиллюстрируйте зависимость расходов на образование от валового внутреннего продукта и от численности населения с использованием графиков разброса. Прокомментируйте полученный результат.
Определите, есть ли зависимость между указанными данными. Если есть, то какова она, линейная или нет?
Проведите корреляционный анализ данных, характеризующий зависимость расходов на образование от валового внутреннего продукта и численности населения. Сформулируйте соответствующие выводы.
Задание 2. В таблице 2.6 представлены результаты выборочных наблюдений (Салин, Чурилова 2002: 92-93). На основе данных таблицы 2.6 постройте электронную таблицу в системе STATISTICA. Исследуйте влияние на продолжительность жизни пенсионеров следующих показателей: стажа работы и возраста выхода на пенсию.
В ходе выполнения задания:
- 1) рассчитайте матрицу парных коэффициентов корреляции, отберите значимые коэффициенты, приняв а = 0,05; проверьте, остаются ли значимыми эти коэффициенты при а = 0,01;
- 2) найдите оценку частного коэффициента корреляции между продолжительностью жизни и возрастом выхода на пенсию;
- 3) постройте графики зависимости продолжительности жизни от возраста выхода на пенсию;
- 4) интерпретируйте полученные результаты
корреляционного анализа.
Данные выборочных наблюдений (приводятся по: Салин, Чурилова 2002: 92-93)
Номер наблюдения |
Продолжительность жизни, лет |
Возраст выхода на пенсию, лет |
Стаж работы, лет |
1 |
79 |
57 |
35 |
2 |
73 |
61 |
38 |
3 |
70 |
69 |
32 |
4 |
82 |
55 |
30 |
5 |
73 |
67 |
40 |
6 |
75 |
63 |
29 |
7 |
69 |
66 |
37 |
8 |
72 |
70 |
43 |
9 |
71 |
68 |
34 |
10 |
77 |
59 |
39 |
11 |
69 |
64 |
44 |
12 |
73 |
69 |
41 |
13 |
80 |
56 |
38 |
14 |
75 |
62 |
40 |
15 |
70 |
63 |
42 |
16 |
69 |
68 |
34 |
17 |
72 |
66 |
32 |
18 |
73 |
66 |
29 |
19 |
72 |
61 |
41 |
20 |
75 |
60 |
38 |
Задание 3. По таблице 2.7 проведите корреляционный анализ данных, характеризующих уровень жизни населения Сибирского федерального округа в 2000 г. (Овсянникова, Чудинова 2001).
Некоторые показатели уровня жизни Сибирского федерального округа в 2000 г.
Регион |
Уровень бедности (% бедных в общей численности населения) |
Отношение среднедушевого денежного дохода к прожиточному минимуму, % (данные на декабрь 2000 г.) |
Задолжен ность по налогам и сборам в % к их поступлению в бюджетную систему |
Уро вень безра бо тицы*, % |
Алтайский край |
43,3 |
174 |
51,0 |
12,7 |
Красноярский край |
23,8 |
348 |
26,9 |
14,3 |
Иркутская область |
28,2 |
244 |
58,7 |
12,1 |
Кемеровская область |
20,0 |
304 |
85,4 |
12,2 |
Новосибирская область |
52,6 |
144 |
42,1 |
13,7 |
Томская область |
24,9 |
275 |
22,8 |
8,0 |
Читинская область |
78,0 |
99 |
37,3 |
21,2 |
Республика Алтай |
49,9 |
221 |
26,0 |
18,9 |
Республика Бурятия |
42,0 |
194 |
34,9 |
18,0 |
Республика Тыва |
68,3 |
122 |
56,5 |
20,9 |
Республика Хакасия |
47,6 |
190 |
74,6 |
16,5 |
* Показатель зарегистрированной безработицы имеет иное значение
В ходе проведения анализа выполните следующие задания.
- 1. Постройте матрицу парных коэффициентов корреляции.
- 2. Объясните, как на уровень бедности влияют остальные показатели.
- 3. На основе коэффициента детерминации охарактеризуйте степень зависимости, проверьте его значимость, выбрав уровни а = 0,05; а = 0,01.
- 4. Определите, какие в данном случае целесообразно рассчитать частные коэффициенты корреляции. Найдите их оценки и проверьте значимость, выбрав а = 0,05.
- 5. Выясните, присутствует ли мультиколлинеарность в приведённых данных и что можно предпринять для её устранения.
- 6. Исследуйте графики корреляционных полей.
- 7. Интерпретируйте полученные результаты.
Задание 4. Исследовать зависимость между показателями продаж различных групп товаров любого магазина розничной торговли. Установить зависимость между покупкой посетителями магазина товаров различных групп.