Системи оптичного розпізнавання символів (Optical Character
Recognition - OCR) призначені для автоматичного введення друкованих документів в комп'ютер. (16)
FineReader — омніфонтова система оптичного розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами без попереднього навчання (14).
Особливістю програми FineReader є висока точність розпізнавання і мала чутливість до дефектів друку, що досягається завдяки застосуванню технології "цілісного цілеспрямованого адаптивного розпізнавання". (12)
Процес введення документа в комп'ютер можна поділити на два етапи:
1. Сканування. На першому етапі сканер відіграє роль "ока" Вашого комп'ютера: "переглядає" зображення і передає його на комп'ютер. При цьому отримане зображення є не чим іншим, як набором чорних, білих або кольорових точок, картинкою, яку неможливо відредагувати в жодному текстовому редакторі.
2. Розпізнавання. Обробка зображення OCR-системою(10).
Зупинимося на другому кроці більш докладно. (9)
|
|
Обробка зображення системою FineReader включає в себе аналіз графічного зображення, переданого сканером, і розпізнавання кожного символу. Процеси аналізу макета сторінки (визначення областей розпізнавання, таблиць, картинок, виділення в тексті рядків і окремих символів) і розпізнавання зображення тісно пов'язані між собою: алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу сторінки. (8)
Як уже згадувалося, розпізнавання зображення здійснюється на основі технології "цілісного цілеспрямованого адаптивного розпізнавання".
· Цілісність - об'єкт описується як ціле за допомогою значимих елементів і відносин між ними.
· Цілеспрямованість - розпізнавання будується як процес висування і цілеспрямованої перевірки гіпотез.
· Адаптивність - здатність OCR-системи до самонавчання. (7)
Відповідно до цих трьох принципів система спочатку висуває гіпотезу про об'єкт розпізнавання (символ, частини символу або кілька склеєних символів), а потім підтверджує або спростовує її, намагаючись послідовно виявити всі структурні елементи і відносини. що їх пов'язують. У кожному структурному елементі виділяються частини, значимі для людського сприйняття: відрізки, дуги, кільця і крапки. (6)
Виходячи з принципу адаптивності, програма самостійно "налаштовується", використовуючи позитивний досвід, отриманий на перших впевнено розпізнаних символах. Цілеспрямований пошук і облік контексту дозволяють розпізнавати розірвані і перекручені зображення, роблячи систему стійкою до можливих дефектів листа. (5)
В результаті роботи у вікні FineReader з'явиться розпізнаний текст, який Ви можете відредагувати і зберегти в найбільш зручному для Вас форматі. (4)
ЛАБОРАТОРНА РОБОТА №5
РОЗПІЗНАВАННЯ СКЛАДНОФОРМАТОВАНИХ ТЕКСТІВ
Мета роботи: ознайомитися з процесом розпізнавання текстів у програмі CuneiForm які мають складне форматування.