1.1. Иерархические агломеративные (объединяющие) методы – это методы, которые последовательно объединяют объекты в кластеры. На первом шаге каждый объект выборки рассматривается как отдельный кластер; далее на основании матрицы сходства объединяются самые близкие друг к другу объекты. Подобным образом каждый объект либо группируется с другим объектом либо включается в состав существующего кластера. Процесс кластеризации конечен и продолжается до тех пор, пока все объекты не будут объединены в один кластер. Разумеется, подобный результат в общем случае не имеет смысла, и исследователь самостоятельно определяет, в какой момент кластеризация должна быть прекращена.
1.2. Иерархические дивизимные (разъединяющие) методы – это методы, которые последовательно расчленяют группы на отдельные объекты. Основной исходной посылкой методов является то, что первоначально все объекты принадлежат одному кластеру. В процессе кластеризации по определенным правилам от этого кластера отделяются группы схожих между собой объектов. Таким образом, на каждом этапе количество кластеров возрастает.
Следует заметить, что как агломеративные, так и дивизимные методы могут быть реализованы при помощи различных алгоритмов.
2. Итеративные методы - сущность методов заключается в том, что процесс классификации начинается с определения начальных условий кластеризации (количества образуемых кластеров, координат центров начальных кластеров и пр.). Изменение начальных условий существенно меняет и результаты кластеризации, поэтому применение этих методов требует предварительного изучения генеральной совокупности, в частности, с помощью иерархических методов кластерного анализа. Чаще всего итеративные методы применяют после иерархических. Итеративные методы могут привести к образованию пересекающихся кластеров, когда один объект принадлежит одновременно нескольким кластерам.
К итеративным методам относятся: метод к -средних, метод поиска сгущений и др.
При выборе методов кластерного анализа руководствуются прошлым опытом, имеющейся информацией о генеральной совокупности, исходными данными. Необходимо отметить, что на начальном этапе, чаще всего, выбирается сразу несколько методов кластерного анализа, которые приводят к различным результатам кластеризации. Полученные классификации объектов анализируются с помощью критериев качества, которые позволяют выбрать наиболее качественную классификацию.
Для больших совокупностей все методы кластерного анализа являются очень трудоемкими, поэтому на современном этапе их применение реализуется с помощью программных продуктов, в частности программы SPSS.
Достаточно подробный обзор и систематизация различных методов кластерного анализа приводится в работе [9].
Основой иерархических методов кластерного анализа является определение меры сходства объектов по наблюдаемым переменным. Для количественной оценки сходства в кластерном анализе вводится понятие метрики. Сходство или различие между объектами устанавливается в зависимости от метрического расстояния между объектами. Существуют различные меры сходства между объектами, среди них наиболее популярными являются следующие:
· евклидово расстояние между объектами:
, (4.1)
· взвешенное евклидово расстояние:
, (4.2)
- расстояние между i и j объектами,
- значение к -й переменной у i -го объекта,
- значение к- й переменной у j -го объекта,
wk - вес, приписываемый к- й переменной.
Если объекты описываются неметрическими переменными, тогда в качестве мер сходства могут быть использованы коэффициенты ранговой корреляции (например, парные коэффициенты корреляции Пирсона), коэффициенты ассоциативности и другие меры сходства.