Теоретические основы проведения кластерного анализа
Кластерный анализ представляет собой совокупность различных статистических алгоритмов, которые упорядочивают объекты в сравнительно однородные группы (рис.4.1.). Данный вид анализа позволяет работать с показателями различных типов данных (интервальным данным, частотам, бинарным данным), при этом переменные должны измеряться в сравнимых шкалах, поскольку па результаты классификации оказывает влияние единицы измерения тех или иных показателей. В результате, если проводится классификация показателей, измеряемых в различных несопоставимых единицах (например, уровень затрат па услугу в денежном выражении и возраст жителей региона), конечные результаты будут искажены из-за различных абсолютных значений.

Рис. 4.1. Визуальное представление однородных труп по каким-либо критериям (кластеров)
Например, при использовании в процессе кластерного анализа таких показателей, как возраст респондентов и частота пользования какой-либо услугой в месяц, если возраст респондентов выражен двузначным числом, то есть в количестве лет, а показатель частоты пользования какой-либо услугой в месяц - однозначным, то есть в количестве раз в месяц, то в этом случае на классификацию будет влиять, в основном, возраст респондентов. Если же возраст респондентов будет выражен также двузначным числом, то есть в количестве лет, при четырехзначном показателе затрат на пользование данной услугой в месяц в денежном выражении, то есть в тысячах рублей, то в этом случае на классификацию будет влиять прежде всего затраты на пользование услугой в денежном выражении. Таким образом, классификацию определяют переменные, имеющий наибольший разброс значений. Для того, чтобы избежать таких искажений исходные данные нормируют.
Применяют следующие способы стандартизации переменных:[1]
- • Z-шкалы (Z-Scores). Из значений переменных вычитается их среднее, и эти значения делятся на стандартное отклонение;
- • разброс от -1 до 1. Линейным преобразованием переменных добиваются разброса значений от -1 до 1;
- • разброс от 0 до 1. Линейным преобразованием переменных добиваются разброса значений от 0 до 1;
- • максимум 1. Значения переменных делятся на их максимум;
- • среднее 1. Значения переменных делятся на их среднее;
- • стандартное отклонение 1. Значения переменных делятся на стандартное отклонение.
Кластерный анализ является описательной процедурой. Он не позволяет делать никаких статистических выводов, но дает возможность изучить «структуру совокупности».
Иерархический кластерный анализ реализует иерархический агломеративиый алгоритм. Иерархическая кластеризация состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров па меньшие. Иерархический агломеративиый подход характеризуются последовательным объединением исходных объектов и соответствующим уменьшением числа кластеров. В начале кластеризации все объекты считаются отдельными кластерами, которые в процессе алгоритма объединяются в один кластер. Сначала определяется пара ближайших кластеров, которые объединяются в один. В результате количество кластеров становится равным N-1. Процедура повторяется пока все кластеры не объединятся в один. На любом этапе объединения аналитик может прервать, получив нужное количество кластеров. Таким образом, результат работы алгоритма агрегирования определяют способы вычисления расстояния между объектами и определения близости между кластерами (рис.4.2). На рисунке 4.2 представлен график (дендрограмма) результатов объединения объектов в кластеры с и пользованием метода Варда: на оси абсцисс находятся все объекты исследования, а на оси ординат - коэффициенты слияния, при которых происходит объединение в кластеры.
Существуют следующие методы объединения кластеров:[2]
- • Одиночная связь (метод ближайшего соседа). Расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров, и результирующие кластеры имеют тенденцию быть представленными длинными «цепочками».
- • Полная связь (метод наиболее удаленных соседей).
Расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. «наиболее удаленными соседями»). Этот метод обычно работает очень хорошо, когда объекты происходят на самом деле из реально различных «рощ». Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является «цепочечным», то этот метод непригоден.
- • Невзвешенное попарное среднее. Расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные «рощи», однако он работает одинаково хорошо и в случаях, протяженных («цепочного» типа) кластеров. Отметим, что в своей книге Спит и Сокэл (Sneath, Sokal, 1973) вводят аббревиатуру UPGMA для ссылки па этот метод, как на метод невзвешенного попарного арифметического среднего - unweighted pair-group method using arithmetic averages.
- • Взвешенное попарное среднее. Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров. В книге Спита и Сокэла (Sneath, Sokal, 1973) вводится аббревиатура WPGMA для ссылки на этот метод, как на метод взвешенного попарного арифметического среднего - weighted pair-group method using arithmetic averages.
- • Невзвешенный центроидный метод. Расстояние между двумя кластерами определяется как расстояние между их центрами тяжести. Спит и Сокэл (Sneath and Sokal (1973)) используют аббревиатуру UPGMC для ссылки на этот метод, как на метод невзвешенного попарного центроидного усреднения - unweighted pair-group method using the centroid average.
- • Взвешенный центроидный метод (медиана). Этот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего. Спит и Сокэл (Sneath, Sokal 1973) использовали аббревиатуру WPGMC для ссылок на него, как на метод невзвешенпого попарного центроидного усреднения - weighted pair-group method using the centroid average.
- • Метод Варда. Метод Варда отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов (SS) для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. Подробности можно найти в работе Варда (Ward, 1963). В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера.

Рис. 4.2. Дендрограмма результатов объединения объектов в кластеры с использованием метода Варда
Иерархический агломеративный метод применим для
небольшого числа объектов. В случае, когда выборка большого размера использование иерархического подхода ограничивается только определением числа кластеров исследуемой совокупности. Для этого находят значимые «скачки» в коэффициентах слияния на дендрограмме. Большой «скачек» в коэффициенте слияния
свидетельствует о том, что объединяются достаточно несхожие кластеры. Например, на рис. 4.2 видим па первом уровне вариант решения из 4 кластеров (с коэффициентом слияния 200). Этот уровень свидетельствует, что в совокупности объектов исследования есть некая дифференциация по признакам и структурам. На практике возможно наличие нескольких значимых «скачков» в коэффициентах слияния, что потребует дальнейшую проработку этих вариантов исследования с целью получения наиболее интерпретируемого результата. Таким образом, работа с кластерным анализом может превратиться в увлекательную игру. Главное, чтобы это не стало самоцелью и аналитик получил действительно содержательные сведения о структуре исследуемых данных. Дальнейшее изучение совокупности данных в случае большой выборки следует осуществить с использованием алгоритмы «К-средних».
Суть метода «К-средних» заключается в следующем: исследователь заранее определяет количество кластеров (к), на которые необходимо разбить имеющиеся объекты (с использованием иерархического агломеративного подхода), а затем первые к объектов становятся центрами этих кластеров. Для каждого следующего объекта рассчитываются расстояния до центров кластеров и данный объект относится к тому кластеру, расстояние до которого было минимальным. После чего для этого кластера (в котором увеличилось количество объектов) рассчитывается новый центр тяжести (как среднее по каждому показателю) по всем включенным в кластер объектам. Процедура повторяется до тех пор, пока не стабилизируются центры. Таким образом, совокупность объектов исследования разбивается на группы с однородными характеристиками.
Методы кластерного анализа используют при сегментировании
рынка.