Морфологический уровень

Прикладная морфология, являясь составной частью компьютерной лингвистики, традиционно считается в ней наиболее исследованной областью, в задачу которой входит:

а) разработка морфологических процессоров – систем автоматического морфологического анализа и синтеза слов, а также систем лемматизации – сведения словоформ к словарным словам;

б) автоматизация морфологических исследований, предусматривающая проведение ряда лингвистических работ с помощью ЭВМ для решения основной задачи – разработки морфологических процессоров: использование СУБД для хранения морфологических словарей, проведения типологических исследований, моделирования морфологических явлений и т.д.

В настоящее время используются самые разнообразные автоматизированные системы обработки речи и текста, применяющие морфологические процессоры: системы машинного перевода, коррекции и редактирования текста, анализа и синтеза речи, информационного поиска (в особенности полнотекстовые системы), автоматического реферирования, автоматические словари, экспертные системы и обучающие лингвистические автоматы. В указанных системах морфологические процессоры являются наиболее надежными и хорошо отработанными компонентами. В последних промышленных и коммерческих разработках хорошо зарекомендовали себя морфологические процессоры процедурного типа, работающие на базе словаря основ.

Модификация морфологических процессоров в основном идет за счет использования блока анализа слов, не содержащихся в словаре («новых слов»), которые традиционно анализируются на основе принципа морфологической аналогии, предполагающего сильную корреляционную зависимость между грамматическими характеристиками слов и буквенным составом их концов.

Основой морфологических анализаторов русского языка, работающих без каких-либо словарей является принцип аналогии. Предпринимаются попытки модификаций этого подхода, предполагающие исключение словарей для целей морфологического анализа или использование их в минимальной степени.

В ЕЯ-системах морфологический этап является начальным (или конечным в случае задачи синтеза) этапом лингвистического анализа. Для различных ЕЯ-систем результат морфологического анализа определяется задачей, решаемой системой. В общем виде его можно определить как получение из исходного слова множества алломорфов со всеми атрибутами. Следствием неразрешимости проблемы морфологической многозначности на данном этапе является множественность выходов системы.

Методы обнаружения и исправления орфографических ошибок подразделяются на два класса в зависимости от того, используют они словари основ или нет. К методам, не использующим словари, относятся частотные и полиграммные. Частотные методы основаны на сортировке слов по частоте их встречаемости в текстах. При этом предполагается, что частота встречаемости ошибочных слов низка. Однако частота встречаемости у редко употребительных слов низка, что снижает эффективность частотных методов. В полиграммных методах для поиска ошибок применяются списки возможных сочетаний букв в словах (обычно строят пары и тройки идущих подряд букв).

Методы, основанные на словарях разделяются на абсолютные и относительные. К абсолютным относится «исторический метод», основанный на словаре встречаемых ранее ошибок. Относительные состоят в том, что исходному ошибочному слову ставят в соответствие некоторый набор слов, которые наиболее похожи на него и выборе среди них правильного. Обычно искаженное слово подвергается некоторым преобразованиям, например пропуск, перестановка, вставка букв. Таким образом, имеется достаточно обширный набор методов и систем морфологического анализа, предназначенных для разнообразных задач. В данном исследовании не предполагается детальная разработка морфологических блоков.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: