Теперь вспомним, что А = m x n и, соответственно, состоит из элементов:
A = [aij], (5)
где aij определяют частоту появления терма i в документе j.
если каждое слово не появляется в каждом документе, матрица а становится более «разреженной». на практике локальные и глобальные веса используются для повышения/понижения важности терма в документе или среди документов. можно записать:
aij = l(i;j)xg(i), (6)
Где l(i; j) – локальный вес для терма i в документе j, а g(i) – глобальный вес терма i. Локальный вес терма используется для того, чтобы увеличить или уменьшить значимость терма i в документе j, а глобальная весовая функция нужна для увеличения или уменьшения веса терма i внутри всей коллекции документов.
Существует множество различных методик взвешивания термов, причем результаты анализа зависят от правильного выбора метода весьма сильно (см. Гл.2).
После того, как схема взвешивания была применена к каждому элементу aij матрицы А, она факторизуется в произведение трех матриц U, V, å используя SVD. svd наследует модель скрытой семантической структуры от матриц U и V, содержащих левые и правые сингулярные вектора из матрицы а, а также от å – диагональной матрицы сингулярных значений из А.
|
|
Эти матрицы есть разбиение оригинальных отношений в линейно-независимые вектора или факторные значения.
В общем случае матрица а получается достаточно большой размерности, поэтому используется так называемая аппроксимация svd, когда из числа всех столбцов трех матриц оставляются только первые k столбцов, несущих большую и наиболее важную часть информации о структуре матрицы, и соответственно, о латентной структуре словоупотребления в документах. Иными словами, это k-ранговая аппроксимация матрицы А.
A ≈ Ak ≡ Uk åk VkT (7)
Нужно заметить, что приближение весьма точно, так как в матрице å величины следуют в порядке уменьшения, а следовательно и в порядке уменьшения их значимости для конечного результата см [4]. Таким образом, можно сказать, что АK– лучшая аппроксимация А.
Аппроксимация SVD отражает структуру связных документов (важные ее части) и убирает шум использования слов – синонимию, которая так портит результаты синтаксических методов. Понятно, что уменьшение шума связано с уменьшением размерности матрицы. Значения, меньшие некоей пороговой величины отбрасываются как мало влияющие на результат.
Интуитивно, с тех позиций, что k – (число измерений) намного меньше m (числа уникальных термов) - минимальные расхождения в терминологии будут игнорироваться.
Термы, которые будут появляться в схожих документов, к примеру, будут близки в k -мерном пространстве, даже если они не будут встречаться вместе в одних документах.
Другими словами SVD может быть рассмотрена как техника наследования наборов некоррелирующих индексирующих переменных или факторных значений, где каждый терм и документ представляется как вектор в k -пространстве, используя элементы левых или правых сингулярных векторов.