Образ страницы и распознавание по шаблонам

Программное обеспечение OCR обычно работает с большим растровым изображением страницы из сканера. Изображения со стандартной степенью разрешения получаются сканированием с точностью 300x300 пикселей на дюйм. Изображение бумажного листа формата A4 (11 формата) при этом разрешении занимает около 1 Мбайт памяти. Изображения c более тонким разрешением возможны с применением более дорогих сканеров, но они часто непрактичны для OCR-приложений из-за большой требуемой памяти для изображений или длительности самого процесса сканирования. Кроме того, увеличение разрешения сканера не приносит пользы, если качество оригинала недостаточно хорошее. Анализируя изображения, исходящие из факсимильных машин, подбирают разрешение, проверяя отличия от имеющихся шаблонов символов (самая маленькая их величина при самом близком соответствии).

По этой причине, большинство систем имеет шаблоны, созданные для различных начертаний. После нескольких слов, программное обеспечение определяет основное используемое начертание и ищет соответствующие пары только с этим начертанием. В некоторых случаях программное обеспечение использует численные значения частей символа (пропорций), чтобы определить новый шрифт. Это может улучшать эффективность распознавания до других стилей печати, типа курсива или жирного начертания слова, найденного на странице.

Таким образом, при распознавании по шаблонам представление описания похоже на представление входных объектов, и описание сравнивается с ними непосредственно.

Программа распознавания TypeReader фирмы ExperVision использует машинно-зависимые алгоритмы, чтобы найти наиболее важные пиксели для различения символов. Берется 30 различных вариантов символа (которые исходят из 30 различных документов) и в каждом из этих примеров анализируется по 100 пикселей, чтобы определить то, какие из них наиболее вероятно должны быть характеристикой для специфического символа (к примеру, пиксели на нижней части "A" всегда чисты и т. д.). Краевые элементы изображения вдоль границ символа часто исключаются этим анализом, потому что они могут быть темны в чистых изображениях, но чисты в страницах с пониженной четкостью. Машинный алгоритм ранжирует 100 пикселей от более до менее непротиворечивых для каждого из символов.

Однако этого шага не достаточно из-за подобия между буквами. Например, в нижнем регистре "h", "k", "f", "l", и "t" имеют общие длинные вертикальные штрихи слева, и пиксели вдоль этого штриха не будут передавать различия этих символов. По этой причине, программное обеспечение фирмы ExperVision находит 24 пикселя, которые являются наиболее непротиворечивыми у всех символов в алфавите, и удаляет их из списка для индивидуальных символов. Пиксели, которые оставлены, должны с наибольшей вероятностью быть уникальными.

Таким образом, требуется создать шаблон целостного описания символа, так чтобы любое изображение буквы в него попадало, а любые допустимые изображения других букв - нет. В чистом виде шаблонное описание может применяться только для распознавания печатных символов. Заметим, что рукописные шрифты тоже распознаются с применением шаблонов (только "более хитрых"), но одновременно со структурным подходом.