Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Представление, кодирование и обработка текстовой информации



Все компьютерные файлы можно разделить на две категории: текстовые файлы (plain text) и двоичные (бинарные) файлы. Текстовые файлы содержат обычные символы, такие как буквы, цифры, знаки препинания и некоторое количество управляющих символов, таких как знаки табуляции и перевода строки. Символы обычно кодируются с помощью ASCII-кодировки или её расширений для различных языков.

Кодировка – совокупность всех уникальных символов, которые способна распознать операционная система. Кодировка одного и того же текста на разных платформах может отличаться.

В кодовой таблице символов (кодовой странице) каждой букве, цифре, служебному знаку присвоен какой-либо код – десятичное число в диапазоне от 0 до 255. Таким образом, можно закодировать 256 символов. Кроме алфавитно-цифровых символов имеется группа символов для управления программно-аппаратными компонентами компьютера. Все символы кодовой таблицы имеют графические образы. Кодовая таблица компьютера делится на две половины.

Первая половина кодовой таблицы, которая кодирует половину возможных символов (от 0 до 127) – таблица ASCII (American Standart Code for Information Interchange), принятая во всем мире в качестве стандарта.

Вторая половина кодовой таблицы(с кодами от 128 до 255) не определена американскими стандартами и предназначена для размещения символов национальных алфавитов (в частности кириллицы), псевдографических символов, некоторых математических знаков. В разных странах, на разных моделях компьютеров могут использоваться разные варианты второй половины кодовой таблицы (их называют расширениями ASCII). В России для кодов 128-255 используют альтернативную таблицу, которую следует считать неофициальным российским стандартом. В целом альтернативную таблицу называют Страницей 866. В оболочке операционной системе Windowsиспользуется другая таблица – кодировка ANSI , называемая Страницей 1251.

В кодовой таблице символов первые 32 символа (коды 0-31) являются управляющимии предназначены для передачи команд управления печатающим устройством и процессом передачи команд по линиям связи. К этим кодам относятся: перевод страницы (код 12); новая строка (код 10); конец текстового файла (код 26); ESC(код 27) – сигнал на завершение или отмену работы и др.

Список служебныхсимволов начинается с кода 32 – пробел. К служебным символам в кодовой таблице относятся знаки препинания, круглые, квадратные и фигурные скобки, кавычки и др. Также в первой половине кодовой таблицы символов размещены 26 букв латинского алфавита: прописные от Адо Z (коды 65-90) и строчные – от адо z(коды 97-122). Во второй половине таблицы размещены 32 буквы кириллицы: прописные от Адо Я(коды 160-175) и строчные – от адо п(коды 160-175) и от рдо я(коды 224-239). Две группы строчных букв кириллицы разорваны группой символов псевдографики, к которым относятся символы-заполнители (коды 176-178 и 219-223), символы, предназначенные для рисования всевозможных рамок (коды 179-218) и дополнительный набор математических знаков.

В целях совместимости текстовых документов при переносе их из среды одного текстового процессора в другой существует особый вид программного обеспечения - конверторы или специализированные программы – перекодировщики, обеспечивающие получение выходного файла в формате текстового процессора – получателя документа.

Современные мощные текстовые процессоры автоматически распознают огромное количество кодировок и практически сразу переводят нечитаемый текст в читаемый. Программы-перекодировщики способны распознавать и автоматически переводить в читаемый формат русскоязычные документы практически во всех известных на сегодня кодировках (СР866, СР1251, KOИ8, Mac, ISO).Что особенно важно, есть возможность дешифровки файлов, прошедших через несколько перекодировок или имеющих фрагменты текста в различных кодировках.

Функциями перекодировки обладают такие программы как Skim Edit, Texter, Universal Viewer. Отличительная их особенность – сверхкомпактные размеры и простота в работе. Файлы в кодировке ASCII удобно читать в файловых менеджерах Norton Commander, FAR или Total Commander, нажав клавишу F3, редактировать – через клавишу F4.

Способ кодирования информации той программой, с помощью которой создаются или обрабатываются эти данные, называется форматом данных. Рассмотрим самые распространенные текстовые форматы.

Самый первый текстовый формат TXT (Text), появился практически одновременно с операционными системами. Такой файл содержит только текст в кодировке ASCII, без учета шрифта, его размера и цвета, без таблиц, иллюстраций и прочих украшений. Документы в формате ТХТ отличаются исключительно маленькими размерами — в пределах нескольких килобайт. Именно небольшой размер ТХТ - файлов и возможность их использования на любых платформах стали основными причинами популярности формата.

Расширенный текстовый формат RTF (Rich Text Format) – межплатформенный формат хранения размеченных текстовых документов, предложенный Microsoft. Первая версия стандарта RTF появилась в 1987 году, с тех пор спецификация изменялась. RTF-документы совместимы с большинством современных текстовых редакторов и операционных систем. Текст в формате RTF кодируется 7-битными символами. Для отображения символов Unicode, как и для форматирования текста, используются escape-последовательности. Работать с форматом RTF можно на большинстве существующих платформ: Windows, MacOS, UNIX. Основной упор делается на сохранение логической структуры и целостности документа. В RTF-файле может содержаться не только текстовая информация, но также графика и таблицы. При работе с RTF текстовый редактор отображает известные ему блоки и пропускает неизвестные. Отсюда следует основной недостаток формата: в некоторых программах содержимое документа может отображаться не целиком либо не совсем корректно.

Формат DOC (Document) – формат самого распространенного процессора MS Word. Помимо основного содержимого в кодировке ANSI или Unicode может включать служебную информацию о его параметрах (тип, размер и цвет шрифта, положение абзацев на странице, выравнивание в абзацах), а также рисунки, видео- и аудио-файлы, таблицы. Недостатки этого формата – прямое следствие его достоинств. Файлы в формате DOC сложно использовать для обмена информацией: на компьютере адресата должен быть установлен Word под управлением операционной системы Windows, причем версия процессора должна быть не младше той, в которой создан документ. Обратную совместимость, то есть читаемость документов старших версий в младших версиях, для MS Word не гарантирует даже производитель.

Формат переносных документов PDF (Portable Document Format) был разработан компанией Adobe для решения проблемы переноса текста и графики с IBM PC-совместимых компьютеров на компьютеры Apple Macintosh и обратно. Основной упор сделан на визуализацию документа. Формат имеет ряд явных преимуществ. Прежде всего, это кроссплатформенный стандарт, то есть документ будет выглядеть совершенно одинаково даже на принципиально разных компьютерах. PDF-файлы компактны и без проблем индексируются, что позволяет создавать электронные библиотеки, в том числе и в Интернете.

Самый существенный недостаток PDF заключается в том, что готовые файлы очень сложно редактировать. Поэтому наибольшее распространение формат получил в издательском деле и в создании документации к программам и технике.

Иногда можно встретить текстовые файлы с самыми причудливыми расширениями. Приведем примеры некоторых из них:

WRI – документ, созданный в текстовом редакторе Write, который входил в состав ранних версий Windows;

WPD – документ, созданный в редакторе Word Perfect. Сейчас такой файл, как и его «родной» редактор, - большая редкость;

ASC – текстовый файл в кодировке ASCII. Читается практически любым современным редактором. Чаще всего содержит текст на английском языке.

С развитием Интернета появились новые текстовые форматы. Формат EML –универсальный формат электронной почты. Он удобен тем, что письмо, полученное с помощью почтовой программы, например, MS Outlook Express, можно сохранить в формате EML, после чего перенести на другой компьютер и открыть в совершенно другой почтовой программе (например, The Bat). Письмо будет выглядеть точно так же и прочтется без каких-либо проблем.

Широкое распространение и большую популярность получил формат HTML (Hyper Text Markup Language) – формат представления текста в документах Интернет. HTML, строго говоря, не является только текстовым форматом. Это язык разметки и описания Web-страниц, включающих в себя не только текст, но также изображения и мультимедийную информацию. Используя различные управляющие символы (теги), можно добиваться изменения цвета текста, его размера и вида шрифта. Однако подобные изменения будут видны только в специальных программах, поддерживающих HTML; это различные браузеры, редакторы Web-страниц. В остальных приложениях (например, в Notepad) HTML-документ будет отображаться в виде обычного текста, напоминающего компьютерную программу.

Представление и передача текстовой информации закреплено в международных стандартах ISO, разработанных Международной организации по стандартизации.

Стандарт ISO 8879 Information Processing Text and Office System Standard Generalized Markup Language (SGML) определяет обобщенный стандартный язык разметки текста, способ описания структуры документа, а также формат вставляемых в документ описательных меток.

С точки зрения стандарта SGML, документ рассматривается как совокупность:

 содержания (информации, содержащейся в документе в текстовой, графической и мультимедийной форме);

 данных о структуре документа (взаимосвязи глав, разделов, параграфов, ссылок, прав доступа к элементам документа);

 данных о стиле оформления документа (используемых шрифтах, интервалах, размерах полей, способе нумерации и т.д.).

 

Структура документа задается при помощи таблицы «Определения типа документа» (DTD) (в терминах стандарта – Document Type Definition), описывающего его структуру. В DTD указывают соответствие символов и их кодов, максимальные длины используемых идентификаторов, способ представления ограничителей для тегов, другие возможные соглашения, синтаксис DTD, а также тип и версию документа. DTD задает взаимосвязь глав, заголовков глав, разделов и других фрагментов текста, образующих документ.

Стандарт SGML устанавливает такие множества символов и правил для представления информации, которые позволяют различным системам правильно распознавать и идентифицировать эту информацию, следовательно, SGML можно назвать метаязыком для семейства конкретных языков разметки. В частности, подмножествами SGML можно считать языки разметки XML (Extensible Markup Language – расширяемый язык описания документа) и HTML. При этом XML более удобен, чем SGML: легче воспринимается, приспособлен для использования в современных браузерах, сохраняет возможности SGML. Для конкретных приложений создаются свои варианты (словари) XML. Известны варианты для математики, химии, медицины.

Применение стандарта SGML для создания структурированных документов дает значительные преимущества. Фактически документ преобразуется в базу данных, допускающую манипуляции с элементами документа в соответствии с заданным DTD. В свою очередь, DTD разрабатывается в соответствии с назначением документа.

Стандарт ISO/IEC 10179 Document Style Semantics and Specification Language (DSSSL) определяет язык для описания правил и формата отображения SGML-документов при выводе на экран, печать или иное устройство отображения.

Стандарт ISO/IEC IS 10744 Information Technology Hypermedia/Time Based Document Structuring Language (HyTime) определяет правила передачи текстовой информации, т.е. является расширением SGML в части использования мультимедийной информации.

В настоящее время общепринятым и совместно используемым единым стандартом хранения и передачи структурированных данных является стандарт ODA (Object Data Base Markup Language), т.е. такой формат данных, который не привязан ни к платформе, ни к конкретному программному пакету.

ODA – язык описания структурированных данных объектного типа, который разработан на базе языка XML, рекомендованного в качестве стандарта. Документы формата ODA являются объектными хранилищами данных любого типа, структуры и содержания.

Структура описания данных ODA позволяет представить в данном формате любые данные из существующих информационных систем, хранилищ и баз данных. Благодаря универсальному описанию информационных структур хранение, передача, анализ, интерпретация данных может осуществляться инструментами, создаваемыми любыми независимыми разработчиками без привязки к информационному контексту, но при этом все они будут полностью совместимы между собой.

Формат ODA равнозначно воспринимается всеми операционными системами, в связи с чем, отсутствует платформенная привязанность и сложности с межплатформенными отношениями и поэтому является основой для единого формата хранения и передачи структурированных данных.

 

Электронный документооборот


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-04-11; Просмотров: 1357; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.016 с.)
Главная | Случайная страница | Обратная связь