Классификация и ординация в изучении сообществ

Когда сравнивается большое количество сообществ, возникает желание как-то упорядочить их — разделить на группы или выстроить в ряд. Классификация сообществ опирается на представление об относительно дискретных группировках (подмножествах), которые на практике далеко не всегда удается выделить. Ординация (англ, ordination, от нем. ordnung) — упорядочивание в системе координат, реальных или виртуальных факторов. Это более универсальный подход к анализу данных, не предполагающий гипотезу о дискретности. Ординация — это собирательное понятие для обозначения многомерных методов, позволяющих располо

жить сообщества (местообитания) вдоль некоторых осей, опираясь на данные видового состава (видовой структуры).

Классификация и ординация — эвристические процедуры. Не являются методами проверки статистических гипотез. Важны не столько как анализ, сколько как способы визуализации данных, позволяющие исследователю представить себе их структуру. Это приемы многомерного разведочного анализа. Диаграммы, полученные этими методами, — не должны рассматриваться как единственно правильная картина мира. Далеко не всегда эти методы нужны, иногда достаточно лишь вывода о сходстве/несходстве сообществ. Рассмотрим некоторые наиболее распространенные методы классификации и ординации[1].

Для классификации чаще используется иерархический аг-ломеративный анализ и метод К-средних. В последнем случае пользователь задает необходимое число кластеров, а вычислительная программа определяет кластерную принадлежность каждого объекта (сообщества). Расстояние измеряется дистанцией Евклида. Этот метод предпочтителен при анализе большого массива данных, поскольку отличается меньшей ресурсоемкостью.

Иерархический кластерный анализ объединяет объекты (сообщества) в кластеры различного уровня, пока все множество не окажется в одном кластере. В методологическом плане иерархический кластерный анализ опирается на представление о фрактально-сти мира. Сходства между объектами может оцениваться различными индексами общности и дистанциями. Результат — матрица сходства или дистанций. Найти пару наиболее сходных объектов легко, но вот как выстроить отношения этой пары с другими объектами, какие кластеры считать более близкими. Это задача собственно кластерного анализа. Ее решение определяется методом (алго-

ритмов) агломерации (присоединения). Существует несколько распространенных методов агломерации, выбор которых можно провести лишь по степени интерпретируемости результатов.

Метод ближайшего соседа (минимальной, одной связи)', в качестве расстояния объекта до кластера принимается его расстояние до ближайшего объекта кластера:

“П(4Ч*)-

Объединяет в один кластер даже далеко отстоящие единицы, если существует соединяющая их цепочка из близких единиц. Предпочтителен для случаев, когда есть цепочечные, волокнистые структуры. Стягивает пространство. Дает кластеры сложной формы.

Метод дальнего соседа (максимальной, полной связи)', в качестве расстояния объекта до кластера принимается его расстояние до самого удаленного члена кластера:

dl+j.k = mm(dik,djk).

Имеет тенденцию образовывать кластеры одинакового размера, простой формы. Растягивает пространство. Удобен для классификации дискретных объектов.

Метод невзвешенного попарного среднего (медианной связи)'.

d., + d..

d = —---J-

Ui+j,k 2

Метод взвешенного попарного среднего (средней связи), в отличие от предыдущего, учитывает число единиц в кластере.

Основным результатов кластерного анализа является дендрограмма — диаграмма, показывающая порядок объединения объектов в кластеры (рис. 11-12). В целом кластерный анализ добивается максимальной однородности групп (минимизации внутригрупповой дисперсии). Однако вопрос о значимости или качестве полученной классификации остается непростым. Значимость полученной классификации (признака «кластерная принадлежность») для отдельных переменных (видов) можно оценить в процедуре дисперсионного анализа при помощи F-критерия. Но это не говорит об адекватности классификации. Более цельная оценка классификации дается с помощью дискриминантного анализа. Этот метод позволяет оценить значимость расстояний между отдельными классами, а также вычислить процент ошибочной классификации (последний может указывать не только на плохое качество классификации, но и на неприменимость самого дискриминантного анализа к изучаемым данным).

Дендрограмма иерархического кластерного анализа на основе индекса Жаккара с учетом обилия. Метод одной связи. Вычисления в пакете vegan в среде R

Рис. 11. Дендрограмма иерархического кластерного анализа на основе индекса Жаккара с учетом обилия. Метод одной связи. Вычисления в пакете vegan в среде R

Дендрограмма иерархического кластерного анализа на основе индекса Жаккара с учетом обилия. Метод полной связи

Рис. 12. Дендрограмма иерархического кластерного анализа на основе индекса Жаккара с учетом обилия. Метод полной связи.

Вычисления в пакете vegan в среде R

Ординация в экологических исследованиях бывает прямая и непрямая. Прямая ординация (прямой градиентный анализ) отображает изменение видового состава вдоль некоторого измеренного экологического фактора (влажности, высоты над уровнем моря и т.д.). В категориях математической статистики она сводится к регрессионному анализу. Непрямая ординация (косвенный градиентный анализ) показывает изменение видового состава вдоль некоторой абстрактной оси, которая отражает максимальную изменчивость в структуре данных. Исходными данными для орди-нации является таблица, в которой строки представлены местообитаниями (сообществами, выборками — samples), а столбцы — видами (или другими таксонами).

Наглядным результатом ординации является диаграмма рассеяния, на которой местообитания представлены точками, а оси — некоторые «виртуальные» координаты, вдоль которых прослеживается максимальный разброс данных (рис. 13). В чем значение ординации? Во-первых, это способ упорядочивания данных, с помощью которого можно судить о сходстве и различии между 61

местообитаниями в разных координатах. Во-вторых, ординация рассматривается как способ поиска скрытой структуры данных: оси, вдоль которых располагаются местообитания, соответствуют некоторым факторам среды. Кроме того, с ординацией тесно связана задача снижения размерности, когда для характеристики сообщества вместо полного видового состава можно воспользоваться несколькими переменными, с которыми исходные переменные коррелируют.

О двор А луг

  • • лес х сад
  • -1.0 -0.5
  • 0.0 0.5
  • 1.0

Dim1

Рис. 13. Ординация в пространстве осей многомерного неметрического шкалирования. Вычисления в пакете vegan в среде R

С вычислительных позиций известны различные способы ординации: метод главных компонент (principal components analysis, РСА), анализ соответствия (correspondence analysis) и его модификации, например, анализ соответствия с удаленным трендом (DCA, detrended correspondence analysis) и многомерное неметрическое шкалирование (масштабирование, скейлинг, NMS, nonmetric multidimensional scaling). Различия в результатах этих методов иллюстрируют диаграммы ординации (рис. 14).

-1.0 -0.5 0.0 0.5 1.0 1.5 2.0

DCA1

Рис. 14. Ординация методом анализа соответствия и анализа соответствия с удаленным трендом

Метод главных компонент и анализ соответствия оперируют непосредственно с данными о видах. При этом метод главных компонент базируется на линейной модели отклика (обилие каждого вида изменяется пропорционально значениям каждого из скрытых факторов) и нормальном распределении. Анализ соответствия связан с более обоснованной в экологии одновершинной моделью отклика (каждый вид имеет оптимальное значение скрытого фактора). Многомерное неметрическое шкалирование оперирует с матрицей дистанций, поэтому успех зависит от верного выбора дистанции (индекса сходства). Фактически этот метод картирует объекты по расстояниям между ними. Многомерное неметрическое шкалирование признается наиболее универсальным методом ординации.

Результаты ординации нередко интерпретируются с привлечением сведений об условиях среды и других переменных, которые могут оказаться скоррелированы с виртуальными факторами, найденными по структуре данных (рис. 15). Если условия среды учитываются в самой процедуре ординации, используют канонические методы ординации.

Диаграмма ординации методом неметрического шкалирования, на которую наложены векторы, соответствующие факторам среды

Рис. 15. Диаграмма ординации методом неметрического шкалирования, на которую наложены векторы, соответствующие факторам среды. Пунктирная линия объединяет группы сообществ, выделенные в процессе кластерного анализа или по типу местообитания

  • [1] Подробнее см.: Анализ данных в экологии сообществ и ландшафтов / Пер. с англ.; под ред. А. Н. Гельфана, Н. М. Новиковой, М. Б. Шадриной. М.: Изд-во РАСХН, 1999; Пуза-ченко Ю. Г. Указ. соч. 2 Пузаченко Ю. Г. Указ. соч.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >