Латентно-семантический анализ корпуса текстов

Цель данного раздела – предоставить информацию о наиболее оптимальных подходах к решению задачи лси и доказать обоснованность выбора способа его реализации.

В данной главе будет рассмотрен один из аспектов описанной проблемы: латентная семантическая индексация (лси), включающая svd-анализ матрицы терм-документа. Рассматривается следующие вопросы:

Анализ существующих теоретических методов проведения лси, показываются их преимущества и недостатки;

На основе анализа синтезируется модель оптимального пути проведения лси;

Рассматриваются существующие алгоритмы, обеспечивающие проведение лси наилучшим образом, и указываются пути их дальнейшего совершенствования.

Лси является довольно новым методом, но, несмотря на свою молодость, он успел завоевать признание специалистов.

Частично как результат бихейвористского направления в психологии, лингвистика и обработка естественного языка долгое время была сконцентрирована на семантической структуре предложения.

В 1989 году голубом и ван лоаном (golub and van loan, 1989 [2]) был предложен метод декомпозиции по сингулярным значениям (singular value decomposition), который представляет собой математическое ядро метода латентного семантического анализа. Ближе к нашим дням психологи выявили, что лса представляет собой как технику определения смысла текста, так и модель естественного языка. В основном этот интерес и дискуссии вокруг этих работ были вызваны публикациями ландауэра, кинча и их коллег. Они импортировали лса из области получения информации (information retrieval) и провозгласили его как часть психологической модели понимания языка.

Ландауэр и дюма (dumais) в 1997 году описали лса как модель естественно-языкового пополнения, используя его для объяснения того, как темпы лексического присвоения, по всей видимости, опережают ассимиляцию новых слов. Ландауэр также собирался доказать, что лса – законченная модель понимания естественного языка (landauer, laham, rehder, & schreiner, 1997). Он объяснял отсутствие синтаксиса, полагая, что он в первую очередь нужен только для того, чтобы упростить вычислительную сложность помещения слов в лса-подобное представление.

Другие психологи старались подчеркнуть роль, которую синтаксис может играть в лексическом присвоении. Теория синтаксического «начального присваивания» (gleitman & gillette, 1994) показывала, как еще не разговаривающие (имеется в виду правильно разговаривающие с точки зрения языка) дети могут использовать свои знания о синтаксисе для ускорения пополнения своего словарного запаса.

Кинч (1998) присоединил лса к своей конструкционно-интеграционной модели понимания текстов как семантический компонент. Лса предоставляет собой тип расширяемого активируемого включения связанных по смыслу понятий, когда новая информация интегрируется в структуру знаний. Это позволяет системе делать некие выводы, устанавливая, к примеру, «драйвер» и «компьютер» относящимися к контексту, если в тексте упоминается «шина данных».

В других исследованиях психологов на связные темы макдональд выдвинул идею использования варианта лса для предсказания семантической важности (mcdonald, 2000).