![]() |
Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Системы распознавания текстов (OCR-системы). Общая характеристика и функциональные возможности
Системы оптического распознавания символов (OCR - Optical Character Recognition) предназначены для автоматического ввода печатных документов в компьютер. Процесс ввода документа в компьютер можно подразделить на этапы: 1. Сканирование - получение графического изображения, картинки, которую невозможно отредактировать ни в одном текстовом редакторе. 2. Распознавание - обработка изображения OCR-системой. 3. Верификация – это единственный этап, когда пропускная способность системы ограничена производительностью работы человека. Алгоритмы распознавания: 1)Базовые: multifont (шрифтовые) - растровое изображение накладывается на шаблон, наиболее подходящий шаблон, у которого наименьшее количество точек отличается от исследуемого изображения; omnifont (шрифтонезависимые) - идентификация символа по правилам его написания - эталон, с которым производится сравнение, содержит в себе эвристическую информацию о правилах написания символа. 2)Адаптивное распознавание - метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont) - на основе достаточно хорошо пропечатанных символов создается специальный шрифт, который позволяет распознавать плохо пропечатанные символы. 3)Структурные алгоритмы распознавания - хранится информация не о поточечном написании символа, а о наличии в нем структурных элементов (колец, дуг, отрезков и точек). Изображение символа приводится к контуру, на котором анализируются наличия пересечений линий, вычисляются углы, размеры дуг и т.д. В настоящее время большинство систем базируется на технологии "целостного целенаправленного адаптивного распознавания": 1. Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними. 2. Целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез. 3. Адаптивность – способность OCR-системы к самообучению. Следует различать рынок оптического распознавания текста OCR (Optical Character Recognition) и рынок распознавания форм (Data Capturing). Пакет для оптического распознавания символов FineReader от ABBYY Software Hause: ¡ интуитивно-понятный интерфейс; ¡ мощные возможности оптического распознавания символов; ¡ средства для предварительной обработки изображений (поворот страницы), ¡ очистка изображения от мусора, что в значительной степени повышает качество распознавания. ¡ инструменты для разметки. FineReader – омнифонтовая система оптического распознавания текстов, позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания". С помощью ABBYY FormReader можно обрабатывать любые типы форм: ¡ распознает формы, заполненные от руки, на печатной машинке или принтере, а также пункты и штрих-коды; ¡ выделяет цветом все неуверенно распознанные символы и подает их на верификацию; ¡ автоматически проверяет корректность результатов распознавания по базам данных, словарям, с помощью перекрестных проверок полей, проверок сумм, форматов дат, и т.д.; ¡ может обрабатывать различные типы форм, и даже те, которые изначально не были предназначены для машинной обработки, благодаря различным методам удаления изображения самой формы; ¡ экспорт в различные форматы (dbf, xls, другие БД, графические форматы). CuneiForm ( Cognitive Technologies ) - это программа для оптического распознавания текста документов в редактируемый вид: ¡ экспорт распознанного текста с сохранением исходного форматирования объектов; ¡ удобный и наглядный интерфейс; ¡ прямой экспорт результатов распознавания в MS Word, систему для автоматизации делопроизводства Евфрат; ¡ передача текста и изображения через буфер обмена в любые приложения; ¡ печать текста и изображения; ¡ сохранение в форматах RTF, TXT, HTML, DBF; ¡ поддержка работы с OLE-объектами.
|
Последнее изменение этой страницы: 2019-05-08; Просмотров: 873; Нарушение авторского права страницы