Теоретические основы проведения корреляционного анализа

Зависимость между двумя наборами данных может быть представлена линейной или нелинейной. Визуально это можно оценить на графике разброса. В то же время при использовании графика наличие или отсутствие зависимости между данными определяется субъективно, то есть исходя из личного мнения. Например, на

рисунке 2.1 можно наблюдать определённую зависимость между данными: большие значения одной переменной соответствуют большим значениям другой, и, наоборот, малые значения одной переменной соответствуют малым значениям другой.

График разброса двух переменных

Рис. 2.1. График разброса двух переменных

Однако зависимость, представленная на графике, не идеальна. Можно предположить, что если нанести ещё несколько точек, то получится больший разброс. И наоборот, дополнительные точки на графике могут указывать на большую зависимость. Таким образом, график разброса не даёт чёткого ответа на вопрос, есть ли зависимость между переменными. Более объективный подход в определении зависимости между переменными заключается в проведении корреляционного анализа — в частности, в вычислении коэффициента корреляции между переменными.

Корреляционный анализ применяют, когда данные наблюдений или эксперимента можно считать случайными и выбранными из генеральной совокупности, распределённой по многомерному нормальному закону.

Корреляция между парой переменных: парная корреляция

Степень линейной зависимости можно определить с помощью коэффициента корреляции Пирсона (линейного коэффициента корреляции), который рассчитывают по следующей формуле:

Значение линейного коэффициента корреляции находится между -1 и +1. Значения, близкие к +1, свидетельствуют о тесной прямой зависимости между параметрами. Значения, близкие к -1, также указывают на тесную, но обратную зависимость между переменными. Значение «О» говорит об отсутствии всякой зависимости между данными. Рассмотрим примеры данных зависимостей на рисунках 2.2- 2.7.

График на рисунке 2.3 демонстрирует прямую корреляционную зависимость: все точки на графике лежат на прямой линии, большее значение одного показателя соответствует большему значению другого. Коэффициент корреляции равен +1.

Идеальная обратная корреляционная зависимость

Рис. 2.2. Идеальная обратная корреляционная зависимость

На рисунке 2.2 представлена иная ситуация — идеальная обратная зависимость одной переменной от другой. Коэффициент корреляции равен -1.

Идеальная прямая корреляционная зависимость

Рис. 2.3. Идеальная прямая корреляционная зависимость

График разброса на рисунке 2.4 показывает пример отрицательной зависимости между переменными: при увеличении одного показателя уменьшается другой. Коэффициент корреляции между двумя переменными будет близок к -1: например, его значение будет равно -0,9 или -0,8. Чем ближе линейный коэффициент корреляции к ±1, тем ближе точки расположены к прямой линии.

Пример обратной корреляционной зависимости

Рис. 2.4 Пример обратной корреляционной зависимости

На рисунке 2.5 представлена та же ситуация, что и на рисунке 2.4, но график соответствует прямой корреляционной зависимости. Коэффициент корреляции, показывающий зависимость между данными на рисунке 2.5, близок к +1.

Пример прямой корреляционной зависимости

Рис. 2.5. Пример прямой корреляционной зависимости

На рисунке 2.6 представлена ситуация, при которой отсутствует зависимость между переменными: точки разбросаны по всему графику, в результате проследить какую-либо зависимость невозможно. В этом примере коэффициент корреляции близок к нулю или равен ему.

Отсутствие корреляционной зависимости

Рис. 2.6. Отсутствие корреляционной зависимости

Ещё одним примером может выступать график, представленный на рисунке 2.7. На графике можно увидеть некоторую зависимость между переменными, однако коэффициент корреляции в этом случае будет равен нулю. Данную зависимость можно рассматривать как идеальную, но не прямолинейную, поэтому и коэффициент корреляции равен нулю.

Отсутствие прямой зависимости

Рис. 2.7. Отсутствие прямой зависимости

Таким образом, коэффициент корреляции является инструментом измерения тесноты линейной зависимости между двумя переменными. Значения коэффициента корреляции находятся в пределах от-1 до+1 (Томас 1999: 1 Об)[1].

  • [1] В данном пособии применён «оксфордский» методбиблиографического описания. В тексте в круглых скобках даютсясокращённые ссылки на литературу, например: (Гордин 2004: 106), гдепервое слово — автор или название, далее — год издания, потом —страницы. В конце пособия приводится список сокращений, где влевой части — само сокращение, а в правой — его расшифровка(полное библиографическое описание).
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >