Порядок розпізнавання текстових документів

Перетворення паперового документа в електронний відбувається в три етапи. Кожний з цих етапів програма FineReader може виконувати як автоматично, так і під контролем користувача. Якщо всі етапи проводяться автоматично, то перетворення документа відбувається за один прийом.

1. Перший етап роботи – сканування. На цьому етапі звичайно використовують сканер. Однак зображення з листа папера може бути перетворене в цифрову форму і за допомогою інших засобів, таких, наприклад, як цифрові фотоапарати і цифрові відеокамери.

2. Другий етап роботи — сегментація тексту. Справа в тім, що в паперовому документі, наприклад на сторінці книги або журналу, текст не завжди розташовується у фіксованому порядку. Він може розміщатися в декількох колонках, містити ілюстрації (і підпису до них). Додаткові урізання і дані, представлені в таблицях, також можуть заплутати природний порядок тексту. Тому, перш ніж включати текст у документ, його розбивають на блоки, щомістять цільні фрагменти. Блоки розпізнають послідовно. Отриманий текст включається в документ у порядку нумерації блоків.

3. Останній етап роботи програми — безпосереднє розпізнавання. Цей етап звичайно не вимагає втручання користувача, за винятком тих випадків, коли розпізнавання супроводжується «навчанням».

Розпізнаний текст відображається в окремому вікні у вигляді форматованого текстового документа. Він «утрачає зв'язок» з вихідним зображенням і може редагуватися, і форматуватися незалежно від нього. Програма виділяє кольором ті символи, що вона сама розглядає як неоднозначно пізнані. Це спрощує пошук помилок. Засобами програми в отриманому тексті можна також провести перевірку граматики.

4. Отриманий текст можна зберегти у вигляді форматованого або неформатованого документа. Передбачена також можливість прямої передачі отриманого тексту в програми Word або Excel, а також у буфер обміну Windows.

Сканування документа

Сканування — це технічна операція, яку виконує скануючий пристрій. Задача програми FineReader на цьому етапі полягає в тому, щоб прийняти отриману інформацію і відобразити значки відсканованих сторінок на панелі Пакет. Так сторінки готуються до розпізнавання.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: