Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Работа с программами сканирования и распознавания текстовых



документов.

 

Цель работы: освоить технологию сканирования и распознавания текстовых

документов.

 

Теоретические сведения

Важнейшей частью электронного документооборота составляет система

ввода бумажных документов. Эта система предназначена для массового ввода

бумажных документов архива посредством сканера и перевода их в электронный

вид. Чтобы отсканировать текст, картинку или фотографию потребуются

программное обеспечение (ПО) - графический редактор и сканер, который нужно

включить до запуска программы. Применение сканера возможно также для ввода

в компьютер различных карт и чертежей.

Сканер - это устройство, предназначенное для ввода информации в

компьютер, которое позволяет получить «цифровую» (электронную) копию

различных изображений. Процесс создания электронной копии напоминает

процесс фотографирования изображения бумажного документа и называется

«оцифровкой».

С помощью сканера достаточно просто получить изображение страницы текста в

графическом файле. Однако работать с таким текстом невозможно: как любое

сканированное изображение, страница с текстом представляет собой графический

файл - обычную картинку. Текст можно будет читать и распечатывать, но нельзя

будет его редактировать и форматировать. Для получения документа в формате

текстового файла необходимо провести распознавание текста, то есть

преобразовать элементы графического изображения в последовательности

текстовыхсимволов.

Преобразованием графического изображения в текст занимаются специальные

программы распознавания текста (Optical Character Recognition - OCR).

Современная OCR должна уметь многое: распознавать тексты, набранные не

только определенными шрифтами (именно так работали OCR первого поколения),

но и самыми экзотическими, вплоть до рукописных. Уметь корректно работать с

текстами, содержащими слова на нескольких языках, корректно распознавать

таблицы. И самое главное — корректно распознавать не только четко набранные

тексты, но и такие, качество которых, мягко говоря, далеко от идеала. Например,

текст с пожелтевшей газетной вырезки или третьей машинописной копии. Само

собой, распознать текст — это еще полдела. Не менее важно обеспечить

возможность сохранения результата в файле популярного текстового (или

табличного)

формата

скажем,

формата

Microsoft

Word.

Наиболее распространенные системы оптического распознавания символов,

 

ПМ. 04 Выполнение работ по профессии «Оператор ЭВМ»

например, ABBYY FineReader и CuneiForm от Cognitive, используют как

растровый, так и структурный методы распознавания. Кроме того, эти системы

являются «самообучающимися» (для каждого конкретного документа они

создают соответствующий набор шаблонов символов) и поэтому скорость и

качество распознавания многостраничного документа постепенно возрастают.

Процесс оцифровки включает два этапа:

I. Получение копий страниц в виде графических (растровых) изображений,

осуществляемое путём сканирования с последующей обработкой и сохранением в

формате графических файлов —.tif.

В этом случае полностью исключаются какие-либо ошибки, однако невозможен

поиск или извлечение фрагментов текста, например, для цитирования.

II. Распознавание текста при помощи специальной программы (технология

«оптического распознавания символов») с последующим сохранением в одном из

текстовых форматов —.rtf, .docx, .odt.

Существуют некоторые различия при сканировании одной страницы и

многостраничного документа.

 

I этап. Сканирование текстовых страниц

Части страницы, где находится текст, должны быть полностью прижаты к

стеклу сканера, иначе возникает характерное затемнение (в книге — в области

корешка) из-за наклонного падения света лампы в сканере.

Необходимо определить оптимальную рамку и параметры сканирования:

1) Установка области сканирования:

 Выделите рамкой в окне просмотра программы сканирования только область

текста (если нет необходимости сохранить точное форматирование страницы).

 Выделите всю страницу при первом сканировании. Не рекомендуется изменять

размеры выделенной области при последовательном сканировании нескольких

листов — программа OCR в этом случае выдаст для каждого листа свой размер

бумаги, что затруднит печать распознанных документов. Область сканирования

выставляется с небольшим запасом относительно формата страницы, чтобы

не особенно заботиться о точном выравнивании книги на стекле.

2) Выбор настроек сканера:

Для оптического распознавания нормального типографского текста: разрешение

300*300 dpi, с 8-bit серого (c 24-bit цвета, если есть цветные иллюстрации), с

сильным повышением чёткости, с режимом оцифровки «Документ», масштаб

100%.

В окне просмотра текст должен быть «читаем», то есть текст имеет ровный

контур, нет затемненных областей, искажений изображений и фона от бумаги.

Для устранения этих погрешностей используйте регуляторы контраста и яркости.

3) Сканирование и сохранение изображений.

Порядок выполнения стандартный. Создайте папку для сохранения

отсканированных изображений страниц, назначьте имя и порядковый номер

для первого файла (например: page0001.tif).

 

ПМ. 04 Выполнение работ по профессии «Оператор ЭВМ»

 В конце просмотрите все страницы и исправьте недостатки сканирования.

Например, иногда книга неровно легла на стекло и часть текста на какой-либо

странице не отсканировалась или были вовсе пропущены некоторые страницы.

 

II этап. Распознавание текста

1) Загрузка отсканированных изображений в программу OCR.

Запустите программу оптического распознавания теста. Выберите в меню «Файл»

пункт «Открыть» или соответствующую кнопку на панели управления.

Найдите и выделите все заранее отсканированные изображения.

Нажмите кнопку OK. Изображения загрузятся в программу распознавания.

Выделите страницу, которую необходимо распознать. Она загрузится в окно

просмотра.

После этого в некоторых программах можно немного подредактировать (с

помощью соответствующих инструментов) изображение: повернуть его, убрать

«шум», «мусор» и т.п.

2) Разметка.

Разметка нужна для правильного выделения на рисунке областей с текстом,

таблицей, рисунком, а также областей, которые не нужно отображать. Возможно

выполнить разметку автоматически, а после редактировать её вручную. Не

пренебрегайте редактированием разметки — при сложной вёрстке (текст в

несколько колонок или блоками) неправильная разметка может сделать текст

нераспознаваемым.

Среди параметров редактирования есть такие, как:

• создание новых блоков;

• удаление существующих блоков;

• изменение типов существующих блоков;

• изменение размеров блоков;

• добавление пространства к блоку;

• удаление пространства из блока.

3) Выбор языка распознавания.

Для правильного распознавания символов программой OCR необходимо

установить язык (или несколько языков) распознаваемого текста в

соответствующем меню.

4) Распознавание текста.

 Запустите процесс распознавания. Распознавание обычно ведётся в

автоматическом режиме.

 Перед началом распознавания вернитесь к первой странице документа.

Повторите эти операции для других листов. При переходе с одного листа на

другой программа может запросить разрешение на запись сделанных изменений.

5) Проверка текста (рекомендуется, если в программе есть соответствующая

функция).

Проверьте орфографию и оформление распознанного текста. Несмотря на

трудоёмкость процесса, это позволит значительно сократить время на

дальнейшую обработку в текстовом редакторе. Для правки текста необходимо

 

ПМ. 04 Выполнение работ по профессии «Оператор ЭВМ»

запустить проверку орфографии кнопкой «Проверить» (далее следуйте

инструкциям программы).

6) Сохранение.

Экспорт текста из пакета происходит после выбора кнопки «Сохранить». При

этом запустится мастер сохранения, который запросит, куда надо экспортировать

текст:

• сохранить ли его в файле (форматы.rtf, .docx, .odt, .txt и др.);

 можно сохранить либо все листы в один файл, либо сохранить каждый лист в

отдельном фале;

• передать текст в другую программу (текстовый редактор, программу-переводчик

и т.п.).

Постановка задачи.

 

1. Отсканировать любой лист учебника с помощью установленного сканера в

лаб. № 22 и ПО.

2. Выполнить распознавание отсканированного текста в программе Microsoft

Office Document Imaging.

3. Выполнить распознавание отсканированного текста в программе ABBYY

FineReader (при наличии установленной программы).

4. Выполнить проверку орфографии и оформления распознанного текста.

5. Сохранить проверенный документ в формате *.rtf.

6. Создать архив *.rar для сохраненного документа и отправить его электронной

почтой по адресу [email protected], указав в строке “Тема” номер

лабораторной работы, фамилию и код группы студента.

 

Порядок проведения работы:

 

1.

Отсканировать любой лист учебника, используя рекомендации,

рассмотренные в теоретических сведениях: I этап. Сканирование текстовых

страниц.

2.

Выполнить распознавание отсканированного текста:

1.

Распознавание текста при помощи программы Microsoft Office

Document Imaging

Данная программа входит в пакет «Microsoft Office». Набор функций в ней

ограничен. Например, возможно распознавание только для одного языка и для

текста простой компоновки (в одну колонку).

1) Запустите программу: Пуск → Все программы → MicrosoftOffice → Средства

Microsoft Office → Microsoft Office DocumentImaging.

2) В меню «Файл» выберите пункт «Открыть…» и в диалоговом окне укажите

файлы отсканированных страниц.

 

3) В меню «Сервис» кликните пункт «Параметры…» и в диалоговом окне на

вкладке «Распознавание текста» выберите (из предложенных) язык

распознаваемого текста.

4) Выделите первую страницу на боковой панели. В меню «Сервис» выберите

«Распознать текст…» и в диалоговом окне отметьте пункт «все страницы».

Кнопка «OK» запустит автоматический процесс распознавания.

5) В меню «Сервис» выберите «Отправить текст в MicrosoftWord…». В

диалоговом окне отметьте пункт «все страницы» и, если необходимо, «Сохранить

рисунки на выходе». Укажите папку для сохранения файла.

Кнопка «OK» запустит процесс экспорта в текстовый редактор, где вы сможете

внести необходимую правку и отформатировать материал. Сохраните файл.

 

2.

Распознавание текста при помощи программы ABBYY FineReader.

1) Запустите программу.

2) В меню «Файл» или на панели инструментов выберите «Открыть…» и в

диалоговом окне укажите файлы отсканированных страниц. Нажмите «OK».

Страницы загрузятся в программу (эскизы в окне «Документ»).

3) В меню «Сервис» выберите пункт «Опции». В диалоговом окне внесите

следующие изменения на вкладках «Сканировать/Открыть» и «Сохранить»:

4) В окне «Документ» или через Сервис → Опции → Документ выберите один

или несколько языков распознаваемого текста.

5) Выделите первую страницу и выполните анализ документа

( Документ → Анализ документа или кнопка на панели иструментов). В окне

«Изображение» можно отредактировать блоки «Текст», «Таблица», «Рисунок» и

др. для последующего правильного распознавания.

6) Нажмите на кнопку «Распознать документ». Распознавание проходит в

автоматическом режиме, неуверенно распознанные символы выделяются синим

цветом в окне «Текст».

7) Программа позволяет выполнить проверку текста ( Сервис→ Проверка).

8) В окне «Текст» на панели инструментов в выпадающем списке выберите

формат файла для сохранения.

9) Нажмите на стрелку « », находящуюся справа от кнопки «Сохранить», далее

в меню выберите способ сохранения распознанного текста. Нажмите на

«Сохранить».

Контрольные вопросы:

1. Что такое оцифровка?

2. Какие этапы включает в себя процесс оцифровки?

3. Зачем нужны программы распознавания текста?

4. Как происходит распознавание текста?

5. Какие программы распознания текста вы знаете? Какими пользовались?

6. Какое разрешение является оптимальным для сканирования текста,

изображений?

 


 

Практическое занятие № 18


Поделиться:



Последнее изменение этой страницы: 2017-05-05; Просмотров: 134; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.069 с.)
Главная | Случайная страница | Обратная связь