Взвешивание термов

Теперь вспомним, что А = m x n и, соответственно, состоит из элементов:

A = [aij], (5)

где a_ij определяют частоту появления терма i в документе j.

если каждое слово не появляется в каждом документе, матрица а становится более «разреженной». на практике локальные и глобальные веса используются для повышения/понижения важности терма в документе или среди документов. можно записать:

a_ij = l(i;j)xg(i), (6)

Где l(i; j) – локальный вес для терма i в документе j, а g(i) – глобальный вес терма i. Локальный вес терма используется для того, чтобы увеличить или уменьшить значимость терма i в документе j, а глобальная весовая функция нужна для увеличения или уменьшения веса терма i внутри всей коллекции документов.

Существует множество различных методик взвешивания термов, причем результаты анализа зависят от правильного выбора метода весьма сильно (см. Гл.2).

После того, как схема взвешивания была применена к каждому элементу a_ij матрицы А, она факторизуется в произведение трех матриц U, V, å используя SVD. svd наследует модель скрытой семантической структуры от матриц U и V, содержащих левые и правые сингулярные вектора из матрицы а, а также от å – диагональной матрицы сингулярных значений из А.

Эти матрицы есть разбиение оригинальных отношений в линейно-независимые вектора или факторные значения.

В общем случае матрица а получается достаточно большой размерности, поэтому используется так называемая аппроксимация svd, когда из числа всех столбцов трех матриц оставляются только первые k столбцов, несущих большую и наиболее важную часть информации о структуре матрицы, и соответственно, о латентной структуре словоупотребления в документах. Иными словами, это k-ранговая аппроксимация матрицы А.

A ≈ A_k ≡ U_k å_kV_k^T (7)

Нужно заметить, что приближение весьма точно, так как в матрице å величины следуют в порядке уменьшения, а следовательно и в порядке уменьшения их значимости для конечного результата см [4]. Таким образом, можно сказать, что А_K– лучшая аппроксимация А.

Аппроксимация SVD отражает структуру связных документов (важные ее части) и убирает шум использования слов – синонимию, которая так портит результаты синтаксических методов. Понятно, что уменьшение шума связано с уменьшением размерности матрицы. Значения, меньшие некоей пороговой величины отбрасываются как мало влияющие на результат.

Интуитивно, с тех позиций, что k – (число измерений) намного меньше m (числа уникальных термов) - минимальные расхождения в терминологии будут игнорироваться.

Термы, которые будут появляться в схожих документов, к примеру, будут близки в k -мерном пространстве, даже если они не будут встречаться вместе в одних документах.

Другими словами SVD может быть рассмотрена как техника наследования наборов некоррелирующих индексирующих переменных или факторных значений, где каждый терм и документ представляется как вектор в k -пространстве, используя элементы левых или правых сингулярных векторов.