Метод сравнения с растровым шаблоном

Используется, если исходный документ имеет типографическое качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов и исправлений).

Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов (см. рис.), имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством отличных от входного изображения точек.

2. Метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и других).

Используется при распознавании документов с низким качеством печати (машинописный текст, факс и так далее).

Любой символ можно описать через эти элементы и значения параметров их взаимного расположения.

Например, буквы «Н» и «И», состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различаются же эти буквы величиной углов, которые образуются третьим отрезком с двумя другими.

Современные системы оптического распознавания (FineReader, CuneiForm) используют оба метода и являются «самообучающимися» (то есть для каждого конкретного документа они создают соответствующий набор символов, поэтому скорость и качество распознавания постепенно возрастают).

Для распознавания бланков (форм), заполненных рукопечатным текстом (данные вводятся в поля печатными буквами от руки), используются системы оптического распознавания форм. Эта задача сложнее, так как печатные символы, написанные от руки разными людьми, сильно отличаются, к тому же необходимо определить, к какому полю относится распознаваемый текст.

В последнее время создаются системы распознавания рукописного текста, но они очень несовершенны.


 



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: