Statistical machine translation

Статистический машинный перевод является отдельной технологией, которая основана на знаниях статистики и теории вероятности. Они появились не так давно (середина 2000-х), например, Яндекс разработал только в конце 2011 года, Гугл – на пару лет раньше. Такой перевод основывается не на правилах языка (в отличие от Rule-based), а на статистике. При этом система сравнивает тысячи параллельных текстов, содержащих информацию на разных языках, например, разноязычные версии сайтов организаций.

Система копит информацию о переводе тех или иных эквивалентов (от слов до предложений). При этом система машинного перевода имеет три основных модуля:

1. модель перевода;

2. модель языка

3. декодер

Модель перевода – таблица, в которой для всех известных системе слов и фраз на одном языке перечислены все возможные их переводы на другой язык и указана вероятность этих переводов. Модель перевода создается в три этапа:

1) Подбираются параллельные тексты, в них – пары предложений как сегменты, затем уже в каждом таком сегменте выделяется все меньшая единица – словосочетание или слово. Например, пусть даны два английских предложения:

1. London stands on the river Temse.

2. Ulianovsk is located on the bands of the river Volga.

Лондон находится на реке Темза.

Ульяновск находится на берегах реки Волга.

Т.е. вероятность эквивалента the river = река – 100%.

Соответственно, накопив такую базу эквивалентов, система расставляет вероятности перевода для каждого эквивалента и переходит к обработке с помощью модели языка. При этом модель языка также содержит данные по частотности и вероятности каждой из языковых единиц в выходном языке. Сам же декодер занимается уже непосредственно переводом, т.е. сборкой перевода: для каждого предложения исходного текста он подбирает все варианты перевода, сочетая между собой фразы из модели перевода и сортирует их по убыванию вероятности. Например:

Пользователь захотел перевести фразу «to be or not to be». Допустим, что из всех вариантов в модели перевода максимальная вероятность получилась у сочетания «быть или не бывает», а сочетание «быть или не быть» оказалось на нижестоящих позициях. Декодер идет в модель языка и просматривает уже вероятность (частотность) каждой из этих фраз. «Быть или не быть» в таком случае, естественно, будет на первом месте, ее и выберет декодер в качестве эквивалента.

Основная проблема со статистическими переводами связана с качеством модели перевода.