Меры качества кластеров и кластерного разбиения

До сих пор нет четкой, апробированной методологии определения качества получаемых кластеров и определения целевой функции кластерного анализа. Наиболее адекватные результаты получаются при использовании так называемых внешних мер, то есть при сравнении результатов автоматического анализа с ручным. Крайне мало исследований в области оценки качества выделяемых в наборах данных иерархий и классов, особенно для наборов текстовых документов [9].

Критерий качества кластеризации в той или иной мере отражает следующие неформальные требования:

- внутри групп объекты должны быть тесно связаны между собой;

- объекты разных групп должны быть далеки друг от друга;

- при прочих равных условиях распределения объектов по группам должны быть равномерными.

Все меры качества кластерного разбиения можно разделить на два класса. К первому классу относятся меры, основанные на оценках экспертов, так называемые внешние меры качества. Ко второму классу, соответственно, относятся меры, не основанные ни на какой дополнительной информации – внутренние меры качества. Внешние меры это [3]:

- энтропийная мера;

- F-мера.

К внутренним мерам можно отнести общее внутреннее сходство.

Надо сказать, что при непосредственной кластеризации мы не можем использовать внешние меры, поскольку наша задача обозначена в условиях полной неопределенности, и никаких экспертов привлекать не предполагается. При непосредственной работе, очевидно, необходимо использовать внутренние меры (в качестве целевой функции), однако при тестировании системы, проверке эффективности ее работы, адекватности ожиданиям пользователя, должны использоваться именно внешние меры, как имеющие наименьшую субъективность, по сравнению с внутренними.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: