SVD с обновлением

Как показывает практика, при построении лси- систем недостаточно однократно создавать терм-документную матрицу. Понятно, что по прошествию некоторого времени информация может изменяться, обновляться, устаревать, возможно и изменение ее позиционирования. В базовом лси не предусмотрено методов, позволяющих обновить матрицу, если пришли новые документы или термы. Возможно лишь пересчитать svd. Обновление приходится делать с помощью иных средств. Три процесса используются для добавления термов и документов в сгенерированную лси базу данных: вложение (folding-in), пересчет svd и svd-обновление (уже упомянутое). Процесс вложения состоит в добавлении термов и документов в существующее векторное пространство. Чтобы «вложить» новый m x 1 вектор документа d, элементы которого было нужным образом взвешены, d проецируется на совокупность существующих векторов термов (то есть на столбцы матрицы u_k). Аналогично для термов.

Вложение не меняет представления существовавших ранее документов и термов в терм-документном пространстве, поэтому любое влияние дополнительных термов и документов не определяется. Так как вложение не влияет на семантическую структуру базы данных, пересчет svd всегда является альтернативой для обновления. Однако это может требовать больших затрат памяти и машинного времени. Чтобы избежать таких затрат и иметь возможность увидеть эффект от добавления новых термов и документов в существующую модель векторного пространства, svd-обновление, описанное в [5] и [16] является приемлемой альтернативой. Он работает с матрицей a_k, а не с а. Этот процесс состоит из трех этапов: обновление термов, обновление документов, обновление весов термов.

Даундэйтинг представляет собой удаление термов и/или документов из векторного пространства. Здесь также можно выделить три метода его проведения: вычленение (folding-out), пересчет svd и даундэтинг модели уменьшенной мерности. (downdating the reduced model или drm). Вычленение в данном контексте означает игнорирование термов или документов в векторном пространстве и игнорирование соответствующих рядов в матрицах u_k и v_k. Поэтому в течение сопоставления запроса те термы и документы, которые «вычленены» просто не используются в сравнениях. Вычленение не имеет информации о способе, каким удаляемый терм или документ может влиять на терм-документные связи, кластеризацию или смысл в коллекции.

Пересчет svd ставит перед исследователем те же трудности, что и при его обновлении. Так как пересчет повлечет за собой явные перемены в векторной модели пространства, он требует затрат памяти и машинного времени. Метод drm моделирует эффект от удаления терма или документа из векторного пространстве используя k-ранговую модель a_k, а не оригинальную матрицу а. Модели для даундэйтинга svd описаны в [7] и [8].

23 24 25 26 27 28 29

Экономическое развитие Великобритании в XIX-начале XX веков

Экономическое развитие Германии в XIX – начале XX века

Либерализм и консерватизм в политике Александра I

Требования к складским помещениям и хранению пищевых продуктов

Ассортимент полуфабрикатов из птицы и их кулинарное использование

Культура Древней Руси 9-12 вв. Значение принятия Русью православия в формировании культуры и ментальности русского народа

Самый сильный аргумент, почему эволюция человека не могла быть

Никогда нельзя поворачиваться спиной к опасности и пытаться убежать от нее. Сделав это, вы удвоите опасность. Но если вы встретите опасность своевременно и бесстрашно, то уменьшите ее наполовину. © Черчилль ==> читать все изречения...

8412

8132