и с ч о

Рис. 1. Сравнение записей “исчо” и “ещё” с помощью сетки подобия.

В общем случае необходимо отметить, что коэффициент подо­бия отражает кардинальное для орфографических ошибок разграни­чение между графически правильной записью искомого слова и другими словами в словаре. Это означает, что для любого графи­ческого слова с орфографической ошибкой в качестве ближайшего словарного эквивалента алгоритм определяет его орфографическую запись.

С содержательной точки зрения преимущества предложенного метода сравнения заключаются в следующем: он позволяет сравни­вать графические записи разной длины, находя в них совпадающие участки, независимо от места их локализации. Это существенно, т. к. одной из важных особенностей правил чтения в русском язы­ке является возможность преобразования двухбуквенных сочетаний в один звук (“сч” — [щ] и т. п.) и, наоборот, одной буквы — в последовательность из нескольких звуков (“я” — [йа] и т. п.). Степень фонетической мотивированности соответствующих буквен­ных замен учтена при составлении таблицы фонетической близости.

Перейдем к вопросу об оптимизации работы предложенного алгоритма. Здесь возникают три проблемы: а) оптимальный поиск наиболее дешевого пути по сетке подобия; б) выбор рабочей об­ласти словаря для сопоставления с входным графическим словом и в) определение наиболее вероятного словарного соответствия для входного графического слова в случае, когда сопоставление с помощью сетки подобия выявляет несколько возможных слов-кан­дидатов.

Из примера, приведенного на рис.1, видно, что, как правило, нет необходимости просчитывать стоимость всех возможных путей в сетке подобия. Работа алгоритма всегда начинается с узла {a0, b0}. Для него определяются все три расстояния и выбирается минимальное. В случае, если оно находится, корректор переходит в соответствуюший ему узел и продолжает работу только для не­го. Таким образом, на каждом шаге определяется текущий минимум по расстояниям, сумма которых и определяет наиболее дешевый путь. В случае, если для некоторого узла {an, bm} нет строго минимального пути, то система переходит соответственно в два или три следующих узла и продолжает работу в каждом из них. На этом шаге оцениваются уже шесть или девять возможных путей и среди них выбирается минимальный. Если такой путь находится, то для предшествующего узла выбирается путь, ведущий к этому минимуму. Если же и на втором шаге строго минимальный путь не обнаруживается, то поиск следует прекратить, так как это озна­чает, что в паре сравниваемых записей на участке, соответству­ющем всем рассмотренным узлам, нет букв, связанных отношением фонетической близости. Это, в свою очередь, свидетельствует о том, что сравниваемые графические слова являются записями раз­ных слов.

Решение проблемы оптимального выбора слов-кандидатов для сопоставления с входной графической записью также позволяет избежать лишних вычислений, так как в этом случае априори бу­дут исключены из рассмотрения слова с сильно отличающимся бук­венным составом. Прежде всего в этой связи кажется разумным выделение рабочей области словаря, содержащей словарные записи с началами, близкими к входному графическому слову. Например, можно ограничиться выделением подсловаря, содержащего слова с близкими (по таблице фонетической близости) трехбуквенными на­чалами. Если вернуться к нашему примеру (исчо — ещё), то ре­ально в словаре, содержащем 106 000 слов [2], обнаруживается всего 8 фонетически близких трехбуквенных начал из 148 теоре­тически возможных. Каждое гнездо, определяемое одним трехбук­венным началом, содержит от одного до трёх слов, что позволяет ограничить рабочую область словаря примерно 20-ю словами-кан­дидатами.

Для окончательного сокращения набора слов-кандидатов используются два дополнительных механизма, опирающихся на сле­дующие типы фонетических знаний. Это, во-первых, знания о па­радигматической и синтагматической близости букв, которые вво­дятся в таблицу фонетической близости в виде специальных ко­дов, указывающих возможное направление для движения по сетке подобия и соответствующую этому направлению стоимость пути. И, во-вторых, знания о сильных фонетических позициях, в которых сокращена возможность фонетически мотивированных буквенных за­мен. Для гласных букв — это, прежде всего, позиция под ударе­нием. Очевидно, что если словарная орфографическая запись снабжена меткой ударения, то работа алгоритма сравнения может быть существенным образом упрощена и оптимизирована, так как цена несовпадения входной буквы с ударным гласным должна быть значительно увеличена относительно табличной. Для согласных сильная позиция — это, в большинстве случаев, позиция перед гласным, где цена за несовпадение также должна быть увеличена.

На основе таких макроконтекстных знаний формируется меха­низм оправдания выделенных с помощью сетки подобия слов-канди­датов. Этот механизм отфильтровывает практически все сло­ва-кандидаты, которые не являются графически правильной зап­мисью обрабатываемого входного слова, причем в подавляющем числе случаев остается единственная и нужная словарная орфог­рафическая запись.

В заключение отметим, что система синтеза русской речи, описанная в разделе I, реализована в виде действующего прог­раммного макета, а автоматический корректор — в виде готового коммерческого продукта.

Мы приносим благодарность всем коллегам, которые вместе с нами принимали участие в этой работе: Л. М. Захарову, И. Г. Фроло­вой, А. Ю. Фролову — сотрудникам филологического факультета МГУ, а также сотрудникам отдела Рос НИИ ИТ и АП под руководством Э. В. Попова — А. Ф. Киселеву, М. Дагаеву и А. Радусу.

Литература

1. А. А. Зализняк. О понятии графемы.

2. Орфографический словарь русского языка. М., “Русский язык”, 1978.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: