Що таке OCR-системи (18)

Системи оптичного розпізнавання символів (Optical Character

Recognition - OCR) призначені для автоматичного введення друкованих документів в комп'ютер. (16)

FineReader — омніфонтова система оптичного розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами без попереднього навчання (14).

Особливістю програми FineReader є висока точність розпізнавання і мала чутливість до дефектів друку, що досягається завдяки застосуванню технології "цілісного цілеспрямованого адаптивного розпізнавання". (12)

Процес введення документа в комп'ютер можна поділити на два етапи:

1. Сканування. На першому етапі сканер відіграє роль "ока" Вашого комп'ютера: "переглядає" зображення і передає його на комп'ютер. При цьому отримане зображення є не чим іншим, як набором чорних, білих або кольорових точок, картинкою, яку неможливо відредагувати в жодному текстовому редакторі.

2. Розпізнавання. Обробка зображення OCR-системою(10).

Зупинимося на другому кроці більш докладно. (9)

Обробка зображення системою FineReader включає в себе аналіз графічного зображення, переданого сканером, і розпізнавання кожного символу. Процеси аналізу макета сторінки (визначення областей розпізнавання, таблиць, картинок, виділення в тексті рядків і окремих символів) і розпізнавання зображення тісно пов'язані між собою: алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу сторінки. (8)

Як уже згадувалося, розпізнавання зображення здійснюється на основі технології "цілісного цілеспрямованого адаптивного розпізнавання".

· Цілісність - об'єкт описується як ціле за допомогою значимих елементів і відносин між ними.

· Цілеспрямованість - розпізнавання будується як процес висування і цілеспрямованої перевірки гіпотез.

· Адаптивність - здатність OCR-системи до самонавчання. (7)

Відповідно до цих трьох принципів система спочатку висуває гіпотезу про об'єкт розпізнавання (символ, частини символу або кілька склеєних символів), а потім підтверджує або спростовує її, намагаючись послідовно виявити всі структурні елементи і відносини. що їх пов'язують. У кожному структурному елементі виділяються частини, значимі для людського сприйняття: відрізки, дуги, кільця і крапки. (6)

Виходячи з принципу адаптивності, програма самостійно "налаштовується", використовуючи позитивний досвід, отриманий на перших впевнено розпізнаних символах. Цілеспрямований пошук і облік контексту дозволяють розпізнавати розірвані і перекручені зображення, роблячи систему стійкою до можливих дефектів листа. (5)

В результаті роботи у вікні FineReader з'явиться розпізнаний текст, який Ви можете відредагувати і зберегти в найбільш зручному для Вас форматі. (4)

ЛАБОРАТОРНА РОБОТА №5
РОЗПІЗНАВАННЯ СКЛАДНОФОРМАТОВАНИХ ТЕКСТІВ

Мета роботи: ознайомитися з процесом розпізнавання текстів у програмі CuneiForm які мають складне форматування.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями: