Сегментація документа

Під звичайним порядком розпізнавання тексту розуміється послідовне розпізнавання рядків зліва направо. Однак, якщо текст розбитий на декілька колонок (стовпців) або містить урізання, підписи під малюнком, примітки, таблиці й інші елементи форматування, його розпізнавання в звичайному порядку неможливо. У таких випадках програма розбиває текст на блоки, кожний з яких являє собою цільний фрагмент тексту, розпізнаваний у звичайному порядку. Така розбивка документа називається сегментацією.

Автоматична сегментація — не проста задача для програми. Програма розшукує проміжки між рядками, а також зони початку і кінця рядків. Якщо послідовність рядків, що йдуть підряд, має однакові зони початку і кінця, то програма розглядає таку область як текстовий блок.

Якщо проміжки між рядками узагалі відсутні, то, як видно, мова йде про ілюстрації. Якщо виявляється велике число вертикальних і горизонтальних фрагментів, що утворять правильну структуру, то, напевно, у текст включена таблиця.

Якщо клацнути накнопці Сегментувати виділені сторінки, то сегментація сторінки виробляється автоматично. Правда, якщо зображення документа має невисоку якість, то сегментація може бути зроблена невдало, що проявиться в надлишковій кількості занадто дрібних блоків.

У таких випадках можна вручну вказати межі блоків або змінити автоматичну розбивку. Нові прямокутні блоки створюють методом протягання миші. При протяганні створюваний блок виділяється пунктирною рамкою, яка у момент створення блоку перетворюється в суцільну зелену лінію.

Якщо сторінка має простий стандартний вид, то простіше вручну створити одиночний блок, що охоплює всю сторінку, чим надати це програмі, ризикуючи можливістю появи помилок.

Один зі створених блоків завжди є поточним. Він обведений більш жирною лінією, а його вершини позначені маркерами. Перетаскуванням цих маркерів можна регулювати границі блоку.

Для створення блоку непрямокутної форми або зміни послідовності блоків використовують кнопки панелі інструментів Інструменти. Усі кнопки цієї панелі використовуються саме на етапі сегментації.

Програма FineReader розрізняє кілька типів блоків, які обробляються по-різному. Такі блоки виділяються різними кольорами. Текстові блоки обводяться зеленою лінією. Щоб змінити тип блоку, варто клацнути в межах блоку правою кнопкою миші і вибрати потрібний тип у меню Тип блоку контекстного меню.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: