и с ч о

Рис. 1. Сравнение записей “исчо” и “ещё” с помощью сетки подобия.

В общем случае необходимо отметить, что коэффициент подобия отражает кардинальное для орфографических ошибок разграничение между графически правильной записью искомого слова и другими словами в словаре. Это означает, что для любого графического слова с орфографической ошибкой в качестве ближайшего словарного эквивалента алгоритм определяет его орфографическую запись.

С содержательной точки зрения преимущества предложенного метода сравнения заключаются в следующем: он позволяет сравнивать графические записи разной длины, находя в них совпадающие участки, независимо от места их локализации. Это существенно, т. к. одной из важных особенностей правил чтения в русском языке является возможность преобразования двухбуквенных сочетаний в один звук (“сч” — [щ] и т. п.) и, наоборот, одной буквы — в последовательность из нескольких звуков (“я” — [йа] и т. п.). Степень фонетической мотивированности соответствующих буквенных замен учтена при составлении таблицы фонетической близости.

Перейдем к вопросу об оптимизации работы предложенного алгоритма. Здесь возникают три проблемы: а) оптимальный поиск наиболее дешевого пути по сетке подобия; б) выбор рабочей области словаря для сопоставления с входным графическим словом и в) определение наиболее вероятного словарного соответствия для входного графического слова в случае, когда сопоставление с помощью сетки подобия выявляет несколько возможных слов-кандидатов.

Из примера, приведенного на рис.1, видно, что, как правило, нет необходимости просчитывать стоимость всех возможных путей в сетке подобия. Работа алгоритма всегда начинается с узла {a₀, b₀}. Для него определяются все три расстояния и выбирается минимальное. В случае, если оно находится, корректор переходит в соответствуюший ему узел и продолжает работу только для него. Таким образом, на каждом шаге определяется текущий минимум по расстояниям, сумма которых и определяет наиболее дешевый путь. В случае, если для некоторого узла {a_n, b_m} нет строго минимального пути, то система переходит соответственно в два или три следующих узла и продолжает работу в каждом из них. На этом шаге оцениваются уже шесть или девять возможных путей и среди них выбирается минимальный. Если такой путь находится, то для предшествующего узла выбирается путь, ведущий к этому минимуму. Если же и на втором шаге строго минимальный путь не обнаруживается, то поиск следует прекратить, так как это означает, что в паре сравниваемых записей на участке, соответствующем всем рассмотренным узлам, нет букв, связанных отношением фонетической близости. Это, в свою очередь, свидетельствует о том, что сравниваемые графические слова являются записями разных слов.

Решение проблемы оптимального выбора слов-кандидатов для сопоставления с входной графической записью также позволяет избежать лишних вычислений, так как в этом случае априори будут исключены из рассмотрения слова с сильно отличающимся буквенным составом. Прежде всего в этой связи кажется разумным выделение рабочей области словаря, содержащей словарные записи с началами, близкими к входному графическому слову. Например, можно ограничиться выделением подсловаря, содержащего слова с близкими (по таблице фонетической близости) трехбуквенными началами. Если вернуться к нашему примеру (исчо — ещё), то реально в словаре, содержащем 106 000 слов [2], обнаруживается всего 8 фонетически близких трехбуквенных начал из 148 теоретически возможных. Каждое гнездо, определяемое одним трехбуквенным началом, содержит от одного до трёх слов, что позволяет ограничить рабочую область словаря примерно 20-ю словами-кандидатами.

Для окончательного сокращения набора слов-кандидатов используются два дополнительных механизма, опирающихся на следующие типы фонетических знаний. Это, во-первых, знания о парадигматической и синтагматической близости букв, которые вводятся в таблицу фонетической близости в виде специальных кодов, указывающих возможное направление для движения по сетке подобия и соответствующую этому направлению стоимость пути. И, во-вторых, знания о сильных фонетических позициях, в которых сокращена возможность фонетически мотивированных буквенных замен. Для гласных букв — это, прежде всего, позиция под ударением. Очевидно, что если словарная орфографическая запись снабжена меткой ударения, то работа алгоритма сравнения может быть существенным образом упрощена и оптимизирована, так как цена несовпадения входной буквы с ударным гласным должна быть значительно увеличена относительно табличной. Для согласных сильная позиция — это, в большинстве случаев, позиция перед гласным, где цена за несовпадение также должна быть увеличена.

На основе таких макроконтекстных знаний формируется механизм оправдания выделенных с помощью сетки подобия слов-кандидатов. Этот механизм отфильтровывает практически все слова-кандидаты, которые не являются графически правильной запмисью обрабатываемого входного слова, причем в подавляющем числе случаев остается единственная и нужная словарная орфографическая запись.

В заключение отметим, что система синтеза русской речи, описанная в разделе I, реализована в виде действующего программного макета, а автоматический корректор — в виде готового коммерческого продукта.

Мы приносим благодарность всем коллегам, которые вместе с нами принимали участие в этой работе: Л. М. Захарову, И. Г. Фроловой, А. Ю. Фролову — сотрудникам филологического факультета МГУ, а также сотрудникам отдела Рос НИИ ИТ и АП под руководством Э. В. Попова — А. Ф. Киселеву, М. Дагаеву и А. Радусу.

Литература

1. А. А. Зализняк. О понятии графемы.

2. Орфографический словарь русского языка. М., “Русский язык”, 1978.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

Понятие «неблагополучная семья», ее основные характеристики. Типология неблагополучных семей

Мгновенный центр скоростей (МЦС) и его определение. Определение скоростей точек тела с помощью МЦС

Личностные качества волонтеров, которые определяют эффективность волонтерской работы

Три этапа Великой Отечественной войны

Расчет на прочность при срезе и смятии

Источники международного права

Самый сильный аргумент, почему эволюция человека не могла быть