SVD с обновлением

Как показывает практика, при построении лси- систем недостаточно однократно создавать терм-документную матрицу. Понятно, что по прошествию некоторого времени информация может изменяться, обновляться, устаревать, возможно и изменение ее позиционирования. В базовом лси не предусмотрено методов, позволяющих обновить матрицу, если пришли новые документы или термы. Возможно лишь пересчитать svd. Обновление приходится делать с помощью иных средств. Три процесса используются для добавления термов и документов в сгенерированную лси базу данных: вложение (folding-in), пересчет svd и svd-обновление (уже упомянутое). Процесс вложения состоит в добавлении термов и документов в существующее векторное пространство. Чтобы «вложить» новый m x 1 вектор документа d, элементы которого было нужным образом взвешены, d проецируется на совокупность существующих векторов термов (то есть на столбцы матрицы uk). Аналогично для термов.

Вложение не меняет представления существовавших ранее документов и термов в терм-документном пространстве, поэтому любое влияние дополнительных термов и документов не определяется. Так как вложение не влияет на семантическую структуру базы данных, пересчет svd всегда является альтернативой для обновления. Однако это может требовать больших затрат памяти и машинного времени. Чтобы избежать таких затрат и иметь возможность увидеть эффект от добавления новых термов и документов в существующую модель векторного пространства, svd-обновление, описанное в [5] и [16] является приемлемой альтернативой. Он работает с матрицей ak, а не с а. Этот процесс состоит из трех этапов: обновление термов, обновление документов, обновление весов термов.

Даундэйтинг представляет собой удаление термов и/или документов из векторного пространства. Здесь также можно выделить три метода его проведения: вычленение (folding-out), пересчет svd и даундэтинг модели уменьшенной мерности. (downdating the reduced model или drm). Вычленение в данном контексте означает игнорирование термов или документов в векторном пространстве и игнорирование соответствующих рядов в матрицах uk и vk. Поэтому в течение сопоставления запроса те термы и документы, которые «вычленены» просто не используются в сравнениях. Вычленение не имеет информации о способе, каким удаляемый терм или документ может влиять на терм-документные связи, кластеризацию или смысл в коллекции.

Пересчет svd ставит перед исследователем те же трудности, что и при его обновлении. Так как пересчет повлечет за собой явные перемены в векторной модели пространства, он требует затрат памяти и машинного времени. Метод drm моделирует эффект от удаления терма или документа из векторного пространстве используя k-ранговую модель ak, а не оригинальную матрицу а. Модели для даундэйтинга svd описаны в [7] и [8].


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: