Обзор систем обработки естественного языка

Существует большое количество систем, ориентированных на обработку естественного языка (ЕЯ). Можно выделить несколько критериев классификации таких систем. С точки зрения реализации наиболее существенными являются:

а) цель моделирования: анализ, синтез, машинный перевод;

б) количество языков: одноязычные, двуязычные, многоязычные;

в) уровень представления: морфологический, синтаксический, семантический, прагматический;

г) языковая единица: слово, предложение, текст, корпус текстов;

д) тип обработки: внелингвистические, статистические, психолингвистические, морфологические, синтаксические, семантические, прагматические.

Часто используется объединенная классификация, при которой ея-системы делятся на следующие категории: интеллектуальные вопрос–ответные системы, системы общения с базами данных, диалоговые системы решения задач и системы обработки связных текстов. В данной классификации выделяется аспект речевого взаимодействия с определенной категорией программных систем.

В интеллектуальных вопрос–ответных системах [28]основное внимание уделяется приближению языка общения к литературному естественному языку. Данный класс систем развился с ориентацией не столько на использование в реальных задачах, сколько на развитие методов и моделей, позволяющих осуществлять перевод естественно-языковых высказываний, относящихся к узким и заранее фиксированным проблемным областям, в формальное представление, а также обратный перевод. Представителями данного класса являются системы ПОЭТ, ДИСПУТ, Lunar, Lifer и др.

Второй класс систем возник в связи с появлением баз данных с целью обеспечения доступа к информации широкого класса неподготовленных пользователей. К системам этого класса относятся PARNAX, TEAM, IRUS и др.

Диалоговые системы решения задачи, в отличие от систем общения с базами данных, берут на себя не только функции доступа к базе данных, но и функции интеллектуального монитора, обеспечивающего решение заранее определенных классов задач. Основным направлением практического применения систем данного класса является реализация естественно-языкового общения с экспертными системами. В рамках данного подхода были созданы следующие системы: XCALIBUR, ADVISOR, UC и др.

Последний класс систем включает в себя множество различных направлений. Во-первых, это системы моделирующие процесс понимания законченных описаний каких-то фрагментов действительности, выраженных в виде текста на естественном языке, т.е. последовательности связанных друг с другом предложений.

Обычно такие системы используются для поиска текста с нужной пользователю информацией, его реферирования, поиска дополнительной информации, связанной с ним и т.д. К этим системам относятся ТАСС, KERNEL, RESEARCHER, TAILOR, FAUSTUS и др.

Большой интерес представляют системы, работающие с множеством текстов: textanalyst, минерва, ваал 2000, relatus и др.

Textanalyst позволяет работать с отдельными текстами и с корпусом текстов, автоматизирует процесс решения следующих задач: структурный анализ содержания текста; построение тематической структуры текста; реферирование; формирование гипертекста; смысловой поиск. В данной системе работа с текстом осуществляется на уровне слов, а для построения семантической сети используются методы контент-анализа. В связи с этим задачи реферирования и смыслового поиска решаются не достаточно эффективно. Реферирование является простой выборкой предложений с наибольшими весами, а поиск ограничен множеством терминов данного текста. Тем не менее, в ряде случаев, данная система справляется с решением указанных задач, особенно при анализе больших текстов.

«Минерва» предназначена для формирования семантического описания текста документа и помещения его в базу данных. Результатом работы системы является описание смысла текста на объектно-ориентированном языке «Минерва», составляющее базу знаний юридической экспертной системы. В настоящее время проект находится в стадии разработки.

ВААЛ 2000 - психолингвистическая система, позволяющая прогнозировать эффект неосознаваемого эмоционального воздействия текстов на массовую аудиторию, анализировать тексты с точки зрения такого воздействия, составлять тексты с заданным вектором воздействия, выявлять личностно-психологические качества авторов текста. «ВААЛ» работает на уровне слов методами контент-анализа и использует оригинальную экспертную систему оценки психологического воздействия.

RELATUS создавалась с целью анализа текстов, отражающих политические события. Система приобретает знания посредством отображения точных и явных текстов в динамическое представление знаний в виде структурированных ссылок. Следует отметить, что работа с RELATUS по силам лишь специалистам, рядовому пользователю потребовалось бы пройти серьезное обучение.

Таким образом, наиболее известные в настоящее время разработки в области анализа текста осуществляют семантический анализ на уровне предложения или слова.

Важным классом ея-систем являются системы проверки орфографии. К наиболее развитой системе этого типа относится система построения гипертекстовых документов на русском языке “комптек”. Система отличается от аналогов построением индексов не по словоформам, а по словам, что позволяет однозначно идентифицировать слова во всех формах в тексте. Эта система ориентирована на поиск статей по ключевым выражениям, заданным в запросе и сейчас идет дальнейшее развитие системы ориентированное на обработку текстов на русском языке.

Еще одним направлением обработки текстов на естественных языках являются системы автоматического перевода. Они также используют индексацию словаря по словам и используют принципы синтаксического анализа и дополнительную информацию о характерных оборотах. Обычно текст предварительно переводится на внутренний язык системы и затем, уже с этого промежуточного языка строится текст на целевом языке. Такая конструкция позволяет использовать модульное построение системы и расширять область её действия простым формированием дополнительных словарей. К таким системам относятся Stylus, Сократ, Translation Office и т.д. Более простые версии представляют собой обычные интерактивные словари, как, например, “Контекст”.

Все приведенные выше системы обладают существенными недостатками: узкой областью применения и высокими ресурсными требованиями. Ни одна из них не в состоянии предложить полноценный интерфейс на естественном языке, который позволял бы эффективно управлять компьютером.

Вопросы и упражнения


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: