Понятие сходства в кластерном анализе документов

В кластерном анализе документов, так или иначе, должно быть подсчитано сходство между документами, представленными в семантическом многомерном пространстве терминов векторами их взвешенных частот употребления (в нашей задаче пространство сокращено до k измерений (200 – 300), наиболее удачно аппроксимирующих исходное пространство). Таким образом, при выборе меры близости в кластерном анализе, приходится учитывать особенности достаточно высокой размерности пространства, и многие меры близости, подходящие для пространств размерностью 2, 3 и т.п. не подходят для корректного определения близости в нашей задаче [5]. Таким образом, множество алгоритмов, эффективно работающих на пространствах малой размерности, не справляются с задачей кластерного анализа на пространствах больших размерностей только потому, что основаны на мерах близости, неадекватных подобным задачам.

Можно сделать вывод, что основным залогом успеха кластерного анализа документов является выбор оптимальной меры близости, на основе которой можно справедливо судить о степени близости документов, представленных векторами в многомерном пространстве терминов.

Мер близости применяемых в кластерном анализе для многомерных пространств множество [4] и классифицированы они могут быть на три типа:

- угловые меры (мера косинуса);

- меры, основанные на расстояниях;

- корреляционные меры (расширенное сходство Жаккара [5], коэффициент корреляции Пирсона).

Наименьшую адекватность для многомерных пространств имеют меры близости, основанные на расстояниях [5]. На сегодняшний день не существует четкого объяснения этому феномену, а о правильности данного утверждения свидетельствует лишь практика использования различных мер близости в задачах информационного поиска и вообще поиска в многомерных пространствах [40]. Однако попытки объяснить преимущество угловых и корреляционных мер перед традиционными метрическими мерами есть и наиболее интересные из них представлены в этой работе. Также стоит заметить, что иногда для определения сходства используется скалярное произведение векторов. Это имеет смысл в большей степени, когда сами вектора нормализованы (их длина равна 1). Если нормализация не была использована, то она, фактически, выполняется в мерах косинуса и Жаккара. В случае использования скалярного произведения для измерения сходства векторов документов, имеющих разную длину, семантическое различие между документами будет определено неадекватно.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: