Розпізнавання документа

Після сегментації і встановлення порядку проходження текстових блоків виконують останній етап роботи — власне розпізнавання. Звичайно цей етап проходить автоматично.

Якщо документ надрукований досить стандартним шрифтом, який, до того ж, був добре відтворений при скануванні, то клацання по кнопці Розпізнати відкриту сторінку досить, щоб документ був розпізнаний.

Якщо паперовий документ має недостатню контрастність або незвичайний шрифт, процедура трохи ускладнюється. У цьому випадку програма може не справлятися з розпізнаванням визначених символів і допускати однотипні помилки.

У таких випадках для великих документів доцільно спочатку провести навчання програми відповідно до особливостей даного документа. Це досить трудомісткий процес, але він усе-таки простіше, ніж ручне введення багаторядкового документа.

Настроювання розпізнавання починають зі створення еталона, у якому зберігаються особливості даного документа. Для цього треба дати команду Сервіс - Редактор еталонів, клацнути в діалоговому вікні Еталони, що відкрилося, на кнопці Новий еталон і ввести ім'я створюваного еталона.

1. Для підключення еталона при розпізнаванні, треба клацнути на кнопці зі списком, що поруч із кнопкою Розпізнати відкриту сторінку і вибрати пункт Опції. У діалоговому вікні, що відкрилося, у групі Навчання варто вибрати тільки що створений еталон. Якщо передбачається розпізнавання документа, що відповідає еталонові, що був створений і набудований раніше, то вибирається не новий, а старий еталон.

2. Для «навчання» еталона варто встановити прапорець Розпізнавання з навчанням.

3. Режим розпізнавання в цьому випадку трохи змінюється. Всякий раз, коли програма не може впевнено розпізнати символ, вона видає діалогове вікно Ручне навчання еталона. У верхній частині цього діалогового вікна приводиться збільшене зображення поточного розпізнаваного рядка. Поточний символ укладений у рамку.

4. У полі зі списком Символ наведений символ, що, як думає програма, знаходиться в рамці.

5. Необхідно переконатися, що символ у полі зазначений вірно і замінити його в разі потреби. Після цього треба клацнути на кнопці Навчити.

6. Якщо невірно зазначені границі символу, то кнопки Зрушити вліво і Зрушити вправо дозволяють поправити положення рамки.

7. Якщо вірно розташувати рамку не вдається або в тексті зустрівся рідкий символ, що правильно інтерпретувати не можна, варто клацнути на кнопці Пропустити.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: