Энтропийная мера

Основная гипотеза данного подхода заключается в следующем: наилучшая энтропия кластерного разбиения достигается тогда, когда каждый кластер содержит всего один объект.

Сначала для каждого кластера j считается p_ij – вероятность того, что член кластера j принадлежит некоему классу i из заранее составленного экспертами распределения классов. Энтропия каждого кластера считается в соответствии с классической формулой:

, (26)

то есть сумма производится по всем предопределенным классам.

Полная энтропия набора кластеров вычисляется, как сумма энтропий кластеров, с учетом размеров кластеров [3]:

, (27)

где n_j – размер кластера j, m – количество кластеров, n – общее количество точек пространства.

F-мера

Эта мера объединяет в себе понятия точности и полноты, взятые из теории информационного поиска. Точность (precision) – это доля истинно релевантных (удовлетворяющих запросу) документов в общем числе найденных, и полнота (recall) – доля обнаруженных истинно релевантных документов [2].

Таким образом, можно считать каждый кластер результатом запроса, а каждый предопределенный экспертом класс документов – желаемым результатом запроса, то есть наилучшим по параметрам набором документов, возвращаемых в ответ на запрос. Далее мы подсчитываем значения полноты и точности этого кластера для каждого класса:

, (28)