Принципы автоматического чтения текстовой информации

⇐ ПредыдущаяСтр 4 из 8Следующая ⇒

Задача ЧА состоит в последовательном распознавании и кодировании символа первичного документа для последующей передачи полученного кода непосредственно в ОП ЭВМ или фиксации на промежуточном носителе. Для решения этой задачи в ЧА должны быть реализованы следующие функции:

· осмотр и восприятие изображения, в процессе которых вырабатывается электрический сигнал, соответствующий графическому начертанию вводимого символа;

· выделение существенных признаков и составление описания воспринятого изображения символа;

· распознавание символа, в процессе которого описание воспринятого изображения вводимого символа сравнивается с описаниями эталонов и принимается решение относительно соответствия символа тому или иному эталону.

Осмотр и восприятие изображения. В процессе осмотра (оптического или магнитного) изображения символа производится его “дискретизация”. Как правило, для этого формируется развертка, при которой все поле изображения символа как бы покрывается прямоугольной сеткой, что можно сравнить с проектированием изображения на сетчатку глаза человека. Размер ячеек сетки определяется используемыми кодами и разрешающей способностью узла считывания ЧА. Каждой ячейке ставится в соответствие некоторое число, характеризующее интенсивность отражения от данной ячейки света или величину сигнала от магнитной головки. Опрос ячеек сетки производится в фиксированном порядке и поэтому получаемая совокупность чисел характеризует воспринимаемые изображения, т.е. является первоначальным описанием.

Выделение существенных признаков и составление описания. Первичное описание изображения символа составляется в процессе его восприятия, когда каждой клетке сетки ставится в соответствие некоторое число, характеризующее его яркость, Однако объем информации в таком описании чрезмерно велик и она не удобна для обработки. Поэтому возникает необходимость во вторичном описании, т.е. выделении из первичного описания ряда более информативных вторичных признаков. К их числу относят геометрические и топологические (или структурные).

В первом случае используются наиболее информативные области контурной линии знака и поля, которое его окружает. Примерами геометрических признаков могут служить прямой вертикальный штрих в изображении символа (например, в букве " Н" ), дуга с выпуклостью вправо или влево (например, в изображении цифр " 6" и " 9" ) и т.д.

Методы структурного анализа, позволяют выявлять, фиксировать и сравнивать взаимные связи между отдельными элементами контурной линии знака. Анализу подвергаются относительная длина, направление и кривизна линий, наличие и количество начальных и конечных точек пресечения, открытых дуг, замкнутых областей (замкнутые контуры), различной связности, узлы различной кратности и т.д. Так изображение буквы “О” характеризуется контуром нулевой связанности, цифры ”8” – контуром первой связанности из-за наличия пересечения; в изображении буквы “А” можно выделить два узла первой кратности (нижние концы), узел второй кратности (вершина) и два узла третьей кратности (точки соединения с горизонтальным штрихом).

Вторичные признаки должны выбираться так, чтобы описание изображения символа однозначно его определяло и было по возможности инвариантным к размерам и ориентации символа, а также нечувствительным к небольшим полиграфическим дефектам. Реальное вторичное описание, т.е. перечисление в определенном порядке значений признаков, всегда включает в себя элементы геометрического и топологического описаний.

Распознавание символов. Полученному описанию изображения ставится в соответствие код символа из системы кодов, принятой в ЭВМ. В памяти ЧА хранятся эталонные описания всех распознаваемых устройством символов; каждому эталонному описанию однозначно соответствует стандартный код одного символа алфавита, являющийся как бы именем эталонного описания. В процессе распознавания вычисляются меры сходства введенного описания каждому эталону и принимается решение о принадлежности вводимого символа эталону, для которого эта мера оказалась максимальной. Последовательность логических и вычислительных операций над описаниями вводимых символов и эталонными описаниями, в результате которой описанию изображения ставится в соответствие один из эталонов, называется алгоритмом распознавания. Он может быть реализован как программно-аппаратными средствами ЧА, так и программными средствами ПК. Алгоритм распознавания упрощается и затраты времени на его реализацию значительно сокращаются при уменьшении объема алфавита. Из-за помех (типографские дефекты, плохое качество бумаги и т.п.) полное совпадение описаний вводимого символа и одного из эталонных обычно не происходит. Если значение меры сходства для одного из эталонов значительно выше, чем для остальных, то вводимому символу приписывается код-имя данного эталона. Если значения меры сходства для двух или нескольких эталонов совпадают или различаются незначительно, то ЧА оказывается неспособным распознать предъявленный ему символ. По этим причинам ЧА принято характеризовать:

· вероятностью (частотой) ошибок распознавания, т.е. относительным числом неправильных решений;

· вероятностью (частотой) отказов от распознавания, т.е. относительным числом символов, для которых ЧА не находит нужного соответствия эталону.

Наиболее громоздкими являются описания для рукописных символов; для специальных шрифтов описание значительно упрощается, а вероятность ошибок и отказов при распознавании уменьшается. Точность составляет 95-97 %.

Описанный алгоритм распознавания называется омнифонтовым (omnifont) или шрифтонезависимым. Согласно этому алгоритму для большинства шрифтов за исключением экзотических и декоративных достаточно иметь единственный набор эталонов с топологическими и геометрическими признаками.

Другой тип алгоритма распознавания называется шрифтовым или матричным (multifont). В соответствии с ним каждому символу алфавита ставится в соответствие матрица-эталон, задающая определенное положение черных точек. Символ, считанный с документа, сравнивается со всеми эталонами. Причем это сравнение может осуществляться либо методом непосредственного оптического перекрытия, либо методом электрического перекрытия. Оба метода базируются на использовании только первичного описания изображения символа без учета вторичных признаков (геометрии или топологии).

В случае применения первого из них происходит оптическое наложение изображения опознаваемого знака на эталонные маски-трафареты. Критерием опознавания является величина светового потока, прошедшего через маску при ее совмещении с изображением знака. Решение принимается в пользу той маски, через которую проникает минимальное количество света.

К основным недостаткам методов оптического сравнения перекрытием относятся:

· зависимость результатов опознавания от контрастности изображения;

· отсутствие способов точной безынерционной центровки опознаваемого изображения относительно масок;

· невозможность получить на фотоприемниках световые потоки достаточной мощности;

· сложность размножения анализируемого изображения с целью одновременного его представления перед несколькими масками;

· ограниченные возможности для опознавания знаков нескольких различных шрифтов.

Методы электрического сравнения перекрытием реализуются с помощью взвешенного суммирования электрических сигналов от элементов изображения знака на эталонных матрицах сопротивлений или ферритовых сердечников. Эталон может представлять собой электрическую модель масок-трафаретов в виде одного или нескольких наборов активных сопротивлений, линий задержек, одной или нескольких шин, продетых через соответствующие подматрицы «белых» и «черных» ферритовых сердечников, и т.д. Опознавание осуществляется аналоговыми способами посредством пороговых схем сравнения и пр.

Если процент совпадения был больше некоторого порогового значения, то считалось, что распознавание символа не состоялось. Достоинство шрифтовых алгоритмов – простота реализации, недостаток – необходимо иметь несколько наборов эталонов, соответствующих распространенным шрифтам.

Шрифтонезависимый алгоритм отлично зарекомендовал себя на текстах хорошего качества. В случае, если качество печати оставляет желать лучшего, т.е. многие буквы искажены, потеряли присущие им штрихи или слабоконтрастны или даже приобрели на грязных текстах новые детали, лучше использовать различные модификации матричного и омнифонтового методов.

Необходимо отметить еще несколько проблем распознавания. Первая – это проблема разделения текста на буквы, с которой связана ошибка некоторых англоязычных систем, адаптированных к русскому шрифту. В английском языке нет символов, состоящих из отдельных, независимых частей – таких, как наше “Ы”. Естественно, что возможность распознавания таких букв не была предусмотрена в алгоритме разделения. В результате русская буква “Ы” неизменно воспринималась системой двух символов – “Ь” и “1”.

Вторая сложность связана с совершенным, казалось бы, пустяком, с тем, что очень трудно положить в ЧА документ абсолютно ровно. Особенно если это не отдельный листок, а, скажем, разворот книги, обычно получается наклон (угол между строкой текста и считывающей линейкой) в несколько градусов, и распознающая OCR-система должна определить этот угол, чтобы внести необходимые поправки.

Бионические методы опознания в отличие от эвристических методов используют принцип действия биологических механизмов восприятия, преобразования и обработки зрительной информации. Типичными устройствами этого вида являются перцептроны, представляющие собой своеобразные упрощенные модели органов чувств.

Пусть, например, человек, использующий такого типа машину, хочет обучить ее опознавать и отличать два класса визуальных изображений. Предположим, что первый класс представляет собой рукописные буквы А, а второй - Б.

Машина обучается путем предъявления некоторых последовательностей изображений из обоих классов. Человек, наблюдающий поведение машины после каждого показа обучающего изображения, определяет является ли оно правильным или нет. Если машина справилась с задачей, учитель «поощряет» машину, увеличивая веса, относящиеся к ячейке, выход которой характеризует правильную классификацию. Если решение машины ошибочно, когда входное изображение взято из класса А, то учитель «наказывает» ее, уменьшая весовые коэффициенты, которые связаны с выходной ячейкой, определившей неверную классификацию.

Продолжая этот процесс дальше, учитель в определённой последовательности показывает машине совокупность изображений как из класса А, так и из класса Б и путем «поощрений» и «наказаний» обучает машину опознавать представителей класса А и класса Б с возможно меньшей ошибкой. Далее машина представляется самой себе и самостоятельно устанавливает, к какому классу принадлежит новые изображения, не использованные в процессе обучения. Это выполняется также путем сравнения выходов.

Существует несколько модификаций такого метода, отличающихся в основном способами соединения элементов и правилами «поощрения» и «наказания».

Среди отечественных систем автоматического распознавания (OCR-систем) необходимо выделить:

· TIGER (ф. Cognitive Technologies). По результатам тестирования техническим центром Hewlett Packard в 1992г. признана лучшей системой распознавания кириллицы. Использует матричный метод, содержит базу наиболее употребительных шрифтов, и систему самонастройки на тип шрифта, имеется самонастройка яркости при сканировании, среда MS DOS, используется в основном в издательствах.

· Cinei-Form (ф. Cognitive Technologies). В 1994г. вышла русскоязычная версия. На выставке “Комтекс-94” заняла первое место по качеству распознавания текстов и удобству работы. Использует омнифонтовый метод, имеет самонастройку яркости при сканировании, среда Windows.

КООРДИНАТНЫЕ МАНИПУЛЯТОРЫ

Мыши

Мышь представляет собой широко распространенное УВИ, облегчающее пользователю работу со многими прикладными программными системами и делающее ее более простой и эффективной. В основной своей функции мышь является устройством управления положением курсора на экране монитора: перемещение мыши по гладкой поверхности (или по поверхности специального планшета) автоматически преобразуется в пропорциональное по величине и совпадающее по направлению перемещение курсора по экрану. Встроенные в тело мыши клавиши позволяют пользователю персонального компьютера (в дальнейшем ПК) сигналы о том, что курсор достиг требуемого положения, и тем самым выбирать те или иные объекты (например, пункты меню), перемещать их по экрану, вызывать одни объекты и убирать с экрана другие, а также эмулировать действие управляющих клавиш клавиатуры.

Своей популярностью мышь обязана широкому распространению графического интерфейса пользователя, когда широко применяются мнемонические изображения объектов – пиктограммы. Возможности клавиатуры явно не согласуются с характером работы пользователя в такой " изоориентированной" среде. Поэтому и возникла потребность в другом средстве связи пользователя с компьютером. Самым популярным из различных модификаций этого средства оказалась мышь, которая делает очень удобным манипулирование такими широко распространенными в графических пакетах объектами, как окна, меню, кнопки, пиктограммы.

Первую компьютерную мышку создал Дуглас Энджельбарт в 1963 году в Стэндфордском исследовательском центре. Первый трекбол был создан значительно позже на фирме Logitech.

При конструировании мышей применяются

· механический,

· оптический или

· оптомеханический принципы действия.

В корпусе механической мыши имеется шар сравнительно большого диаметра, который вращается, когда пользователь перемещает тело мыши по поверхности стола. Шар приводит во вращение два ролика (ось вращения одного из них горизонтальна, второго – вертикальна). Те в свою очередь приводят во вращение 2 непроводящих диска с нанесенными печатным образом контактами, которые поочередно могли соприкасаться с одним неподвижным контактом. Эти механические шифраторы и формировали выходные сигналы, которые после обработки драйвером мыши обеспечивали перемещение курсора по экрану.

Оптомеханическая мышь отличается от механической только тем, что вместо механических дешифраторов используются оптические, и сигналы посылаются в компьютер в результате срабатывания не механических, а бесконтактных оптических переключателей (т.е. срабатывающих при попадании на них светового потока). Оптопара: светодиод-фотодиод (или фоторезистор) располагается по разные стороны диска с прорезями. Порядок, в котором освещаются фоточувствительные элементы, определяет направление перемещения мыши, а частота приходящих от них импульсов – скорость движения.

Оптическая мышь вообще не имеет движущихся частей. Перемещение воспринимается оптическими датчиками (встроенными в корпус устройства) в процессе их смещения относительно поверхности специального планшета. Механическая и автомеханическая мыши не требуют специального планшета – их можно перемещать по поверхности стола, по бумаге, стене и т. п. Однако они менее защищены от попадания пыли и грязи по сравнению с оптическими устройствами. В общем случае оптическая мышь более долговечна, но требует свободного места на столе для размещения планшета. Поверхность такого планшета покрыта очень мелкой сеткой перпендикулярных линий, нанесенных на отражающую свет поверхность. Линии в одном направлении черные, в другом – синие. Один из двух световодов испускает красный свет, который поглощается синими линиями планшета, а излучение другого, работающего в инфракрасном диапазоне, поглощают черные линии. Отраженный от планшета свет попадает на фотодетекторы. Если мышку перемещают, то на фотодетекторы попадает последовательность световых импульсов.

Главной характеристикой мыши является аппаратное разрешение, которое определяется числом отсчетов (импульсов), даваемых упомянутым диском на единицу хода шара – cpi (Counts Per Inch - число отсчетов на дюйм). Этот параметр определяется количеством контактов, прорезей или других элементов диска, при прохождении которых через датчик и формируется выходной импульсный сигнал. Чем больше количество таких элементов на диске, тем больше величина показателя cpi и, следовательно, выше точность позиционирования курсора.

Известны модели мышей, в которых есть возможность менять соотношение скоростей перемещения мыши и курсора – это т. н. мыши динамического действия. В некоторых случаях реализовано такое решение: первые 1-2 дюйма перемещения мыши вызывают медленное, " тонкое" смещение курсора, а дальнейшее перемещение приводит ко всё более непропорциональному ускорению движения последнего. Есть модели с постоянным, но задаваемым извне соотношением перемещений, т. е. есть возможность устанавливать величину этого параметра при настройке программного пакета, с которым предполагается работать.

В настоящее время можно выделить три основных способа подключения мыши. Самым распространенным для настольных IBM PC-совместимых компьютеров является подключение через последовательный порт (интерфейс RS-232), комбинированный порт PS/2, или беспроводной интерфейс в инфракрасном или радиочастотном диапазоне.

Мышки от Microsoft, имеющие последовательный интерфейс, и им подобные, используют для передачи процессору 3-байтовый формат, содержащий, информацию о перемещении мыши (два 8-разрядных числа) и состоянии кнопок. Подобные мышки передают данные со скоростью 1200 бит/с и используют 7 бит данных без контроля четности и один стоповый бит. После 3-байтового пакета всю дальнейшую работу берет на себя соответствующий " мышиный" драйвер.

Драйвер определят направление движения мыши: вверх или вниз, вправо или влево. Это вполне возможно сделать, поскольку 8-разрядные приращения перемещений кодируются в дополнительном коде, и соответственно максимальный диапазон перемещения составляет от -128 до +127 единиц. С учетом скорости передачи за каждые 20мс мышка может передвигаться на 0, 62 дюйма.

Современные мышки от Microsoft и Logitech имеют обычно оптимальное аппаратное разрешение 400 cpi.

Не все мыши используют формат передачи, предложенный фирмой Microsoft. Например, трехклавишные мыши Mouse System и совместимые с ними передают данные в 5-байтовом формате. Это сообщение включает в себя информацию о состоянии третьей клавиши, а также о прошлом и текущем положении мышки, благодаря чему можно вычислить скорость ее передвижения. Разница в форматах приводит к тому, что драйвер от одной мыши не работает с другой.

Хотя никаких стандартов на мыши нет, производители в основном подражают мышам трех фирм: Microsoft, Logitech и Mouse System. Oни популярны, и поддерживаются многими пакетами.

⇐ Предыдущая 1 2 345 6 7 8 Следующая ⇒

Последнее изменение этой страницы: 2017-03-17; Просмотров: 480; Нарушение авторского права страницы