Базовая концепция

Напомним, что, латентной семантической индексацией называется в первую очередь проведение svd-анализа (singular value decomposition) над матрицами, полученными из корпуса документов. Метод svd [2] используется для установления структуры в употреблении слов для всех рассматриваемых документах.

На основе имеющегося набора документов создается терм-документная матрица а. Как уже говорилось, мы определяем ключевые слова или термы в ней посредством:

Составления списка встречаемости всех слов во всех документах;

Удаления стоповых слов;

Удаления слов, которые встречаются только в одном документе.

Оставшиеся слова – и есть термы, которые мы нумеруем от 1 до m

Пусть количество документов равно n. Создадим матрицу а размерностью m x n,такую, что:

A = UåVT , (4)

где UTU = VTV = In где In – единичная матрица порядка n и å = diag(s1;...; sn); si >0 for 1 £ i£ r; sj = 0 for j ³ r + 1

Первые r столбцов ортогональных матриц u и v задают собственные ортонормальные вектора, связанные с r ненулевых собственных значений матриц aat и ata соответственно. Столбцы u и v соответственно являются левыми и правыми сингулярными векторами, а сингулярные значения матрицы а определенные как диагональные элементы матрицы å, являются неотрицательными квадратными корнями n собственных значений AAT .

Матрица ATA содержит информацию о схожести всех пар документов и является матрицей близости между документами. Скалярное произведение двух векторов термов измеряет их появляемость вместе во всех документах набора. Матрица AAT, содержащая информацию о схожести между всеми парами термов и есть терм-термовая матрица близости.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: