Представление и кодирование информации в компьютере.

⇐ ПредыдущаяСтр 2 из 5Следующая ⇒

Компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию.

Информация в компьютере представлена в двоичном коде, алфавит которого состоит из двух цифр (0 и 1).

Рассмотрим по-отдельности кодирование различной информации:

Текстовой

Графической

Звуковой и видеоинформации

Числовой

§2. Кодирование текстовой информации.

Нажатие клавиши на клавиатуре приводит к тому, что сигнал посылается в компьютер в виде двоичного числа, которое хранится в таблице кодировки.

Таблица кодировки – это таблица, в которой устанавливается соответствие между символами и их порядковыми номерами в компьютерном алфавите.

Как правило, все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует 8-разрядный двоичный код от 00000000 до 11111111. Этот код есть порядковый номер символа в двоичной системе счисления.

Для разных типов ЭВМ используются различные таблицы кодировки.

ASCII

С распространением персональных компьютеров типа IBM PC международным стандартом стала таблица кодировки под названием ASCII (American Standard Code for Information Interchange) – Американский стандартный код для информационного обмена:

Стандартными в этой таблице являются только первые 128 символов, т.е. символы с номерами от нуля (двоичный код 00000000) до 127.(01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы.

Остальные 128 кодов, начиная со 128 (двоичный код10000000) и кончая 255 (11111111), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Принцип последовательного кодирования алфавита: в кодовой таблице ASCII латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений. Данное правило соблюдается и в других таблицах кодировки. Благодаря этому и в машинном представлении для символьной информации сохраняется понятие «алфавитный порядок».

Mac

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Кодировка MacCyrillic используется только на компьютерах «Макинтош».

Благодаря отсутствию псевдографики и «верхних» управляющих символов эта кодировка включает довольно много полезных символов; кроме того, присутствуют все дополнительные буквы, необходимые для записи украинского, белорусского, македонского и сербского языков.

Нижняя часть таблицы кодировки (латиница) полностью соответствует кодировке ASCII. Числа под буквами обозначают шестнадцатеричный код буквы в Юникоде.

***

Кроме того, что пользователь может работать на разных компьютерах, существует работа в компьютерных сетях. При этом отображение страницы интернет не всегда правильное. Часто пользователь вместо ожидаемого текста на родном языке видит «абракадабру» из символов. Данная проблема также связана с применением различных кодировок[1] для текстовой информации.

Заметим, что сегодня проходит работа по выработке единого стандарта, единой стандартной кодировки, понимаемой всеми и всегда…

§2.1. Основное понятие – «таблица кодировки»

Повторим, что:

Для записи текстовой информации в компьютерах, как правило, используется кодирование символов последовательностями из восьми бит (что соответствует, как вы помните, одному байту). Один байт – один символ. Иными словами, для записи одной буквы, цифры или заковыристого значка применяется последовательность из восьми нулей и единиц. Какой же конкретно символ соответствует той или иной последовательности? Эти данные распознаются из так называемой «таблицы символов», которая знакома каждой программе, умеющей отображать текст.

Таблица символов (еще она называется «кодовой страницей») может храниться либо в самой программе, либо в операционной системе и предоставляться при каждом запросе. Получив последовательность из восьми бит, программа «смотрит» в таблицу символов и определяет по ней, какому символу эта последовательность бит соответствует.

Нетрудно понять, что таблица символов должна быть строжайшим стандартом – ведь, если текст был написан / закодирован одной таблицей символов, а пользователь читает эту последовательность в соответствии с данными другой кодовой страницы, то прочитать такой текст сможет только человек, долгие годы прослуживший в шифровальном отделе контрразведки. Для английского алфавита (латиницы) это действительно так: во всех существующих таблицах символов, использующихся в компьютерных программах, каждая латинская буква кодируется одной и только одной, твердо и строго определенной международными стандартами последовательностью бит. Такое соответствие байт и отображаемых символов было разработано почти двадцать лет назад на основе последовательности букв в латинском алфавите.

Но с помощью восьми бит можно закодировать до 256 символов – в самом деле, каждый бит может иметь значение 0 или 1, то есть одно из двух, следовательно, всего различных восьмибитовых последовательностей может быть 2⁸=256. Английских же букв – 26, плюс еще столько же заглавных, цифры и служебные символы займут еще мест 50. Поэтому, для возможности адаптации операционных систем к другим алфавитным системам, в качестве международного стандарта было принято строгое соответствие отображаемым символам лишь первых 128 последовательностей восьми бит (от 0 по 127) – то есть первой половины кодовой страницы. А вторую половину отдали «на откуп» производителям регионального программного обеспечения и информационных ресурсов – чтобы они размещали в ней свои алфавиты.

Коды первых 128 символов кодовых страниц, которые должны быть едиными во всех таких страницах, получили название стандарта ASCII. Эти символы также могут кодироваться всего семью битами информации. Первые 32 кода (от 0 до 31) были назначены управляющим символам (например, символ с кодом 13 – это символ конца абзаца), остальные кодировали строчные и прописные латинские буквы, цифры, знаки препинания и математических операций.

Коды второй половины этой 256-символьной кодовой страницы получили название «расширенного» стандарта ASCII. Ими кодировались, как уже было сказано выше, национальные алфавиты, а также символы псевдографики, математические и некоторые другие символы. Вы можете легко отобразить на экране символ с желаемым кодом, набрав, например, в Word его код (десятичный, на цифровой клавиатуре) при удерживаемой клавише Alt.

Появились различные версии кодовых страниц, различающиеся именно своей второй половиной, которым были присвоены определенные номера для отличия их друг от друга. Чтобы пустое место в исходной английской кодовой странице не пропадало, на места, соответствующие кодам символов больше 127, были поставлены гласные буквы латиницы с надстрочными знаками, использующимися в разных европейских языках, а также символы, позволяющие в текстовом режиме создавать простейшие графические изображения – символы псевдографики. В региональных кодовых страницах на этих местах стали располагать символы отличных от английского алфавитов, таких, как русский, турецкий, вьетнамский, тайский и др.

§2.2. Российская особенность

В большинстве стран была создана одна кодовая страница для своего алфавита. Но Россия всегда шла своим путем.

Сегодня в России используются 5 таблиц кодировок символов, в каждой из которых первые 128 символов совпадают со стандартной кодировкой ASCII (8-битовые кодировки, «знающие» русский язык):

КОИ8,

СР1251,

СР866,

Мас,

ISO

Сравнение кодировок.

Характеристика	KOI-8R (KOI-8)	Win1251 (CP1251)	Семейство кодировок 8859 (ISO)	MAC (MacCyrillic)	CP866
Сколько всего символов может закодировать?	2⁸ = 256 символов	2⁸ = 256 символов	2⁸ = 256 символов (для каждой кодировки в семействе)	2⁸ = 256 символов	2⁸ = 256 символов
Сколько бит (байт) отводится для одного символа?			8-битная кодовая страница из серии ISO-8859
Какие символы содержит?	31 прописная и 32 строчных букв русского алфавита, 26 прописных и 26 строчных букв латинского алфавита, 10 цифр, 32 служебных знака и специальные символы, предназначенные для управления устройствами и передачи данных.	наличие практически всех символов, использующихся в русской типографике для обычного текста (отсутствует только значок ударения); также содержит все символы для близких к русскому языку языков: украинского, белорусского, сербского и болгарского.	стандарт ISO 8859-1 (так называемая Latin-1) стала стандартом для " расширенной" латиницы и содержит практически все символы западноевропейских языков. Так, многие шрифты для Windows соответствуют кодировке ISO 8859-1 начиная с позиции 160 до конца таблицы, а в диапазоне 128-159 содержат дополнительные символы (длинное тире или " торговая марка", например). кодам символов, большим 127, соответствовали русские буквы. Так как их всего 33, а с заглавными - 66, то в кодовой странице осталось место для символов псевдографики.	отсутствию псевдографики и «верхних» управляющих символов эта кодировка включает довольно много полезных символов; кроме того, присутствуют все дополнительные буквы, необходимые для записи украинского, белорусского, македонского и сербского языков. Нижняя часть таблицы кодировки (латиница) полностью соответствует кодировке ASCII.	Содержит те же символы, что и ISO-8859-5. Но отличалается от ISO-8859-5 порядком следования русских букв до строчной " р", а символы псевдографики кодируются в ней теми же кодами, что и в исходной английской таблице символов.
«Знает» ли русские буквы?	да	да	да	да	да
Особенности, примечание	Ошибка! Ошибка связи.	Win1251 (CP1251, Code Page 1251, кодовая страница) – одна из наиболее распространенных в сети Интернет и персональных компьютерах (Windows). Все Windows приложения должны понимать эту кодировку без перевода.	не очень удобная кодировка, поскольку в ней отсутствуют многие нужные символы, такие как тире (—), кавычки-ёлочки («»), градус (°) и др. Нет также буквы Ґ, используемой иногда в украинской письменности. Кириллическая кодировка этого семейства не получила широкого распространения	Кодировка MacCyrillic используется только на компьютерах «Макинтош»	CP866 (Code Page 866, кодовая страница) – MS DOS и OS/2. Её использует сеть ФИДО. иначе называется " альтернативная" кодировка

⇐ Предыдущая 123 4 5 Следующая ⇒