Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Кодирование текстовых данных



Как мы уже выяснили, для передачи текста каждому символу алфавита необходимо сопоставить уникальный набор нулей и единиц. Это фактически представляет собой число в двоичной системе счисления (о системах счисления мы подробно поговорим в главе 2). С помощью восьми разрядов (байта) можно закодировать 256 различных символов. Этого вполне достаточно чтобы выразить различными комбинациями из восьми битов все символы русского и английского алфавита, как строчные, так и прописные буквы. Также кодируются знаки препинания и обозначения арифметических действий.

Разумеется, вариантов кодирования можно придумать много (какую букву сопоставить с каким кодом), и для взаимного понимания участников информационного обмена необходим определенный стандарт. В этом случае все будут однозначно понимать — какой код какой букве соответствует. И такая деятельность началась с того, что Институт стандартизации США ввел в использование систему кодирования ASCII(American Standart Code for Information Interchange, стандартный код информационного обмена США). В системе ASCII закреплены две таблицы — базовая и расширенная. Базовая таблица определяет значения кодов от 0 до 127 (число 127 в десятичной системе счисления), а расширенная относится к символам с номерами от 128 до 255 (эти числа также представлены в десятичной системе счисления).

Первые 32 символа базовой таблицы, начиная с нулевого, отданы производителям вычислительных средств. В этой области таблицы размещаются так называемые управляющие коды, которым не соответствуют никакие символы языков. Эти символы не выводятся на экран и на устройства печати.

Начиная с 32-го символа и заканчивая 127-м, размещены коды символов английского алфавита, знаков препинания, цифр, арифметических действий и некоторых вспомогательных символов.

Национальные системы кодирования каждой страны располагаются в расширенной части с кодами от 128 до 255. В России наиболее распространена кодировка символов русского языка, известная как Windows-1251. Она была введена компанией Microsoft. Учитывая популярность операционных систем этой компании, кодировка получила широкое распространение. Она используется на большинстве компьютеров, работающих на платформе Windows.

Однако имеется и другая распространенная кодировка — КОИ-8(код обмена информацией, восьмизначный); ее происхождение относится к временам действия Совета Экономической Взаимопомощи государств Восточной Европы. Сегодня кодировка КОИ-8 используется в компьютерных сетях на территории России и в российском секторе Интернета.

Имеется еще и международный стандарт, в котором предусмотрена кодировка символов русского алфавита. Она носит название кодировки ISO (International Standart Organization, Международный институт стандартизации). Однако на практике данная кодировка используется редко.

Если проанализировать организационные трудности, связанные с созданием единой системы кодирования текстовых данных, то можно прийти к выводу, что они вызваны ограниченным набором кодов (256). В тоже время, очевидно, что если кодировать символы не восьмиразрядными кодами, а кодами с большей разрядностью, то и количество возможных символов увеличится. Такая система, основанная на 16-разрядном кодировании символов, получила название универсальной — Unicode. Шестнадцать разрядов позволяют обеспечить размещение 65 536 символов.

Ситуации с тремя элементарными событиями

Как мы увидели в этой главе, вычисление количества информации строится на двух базовых информационных символах — нуле и единице. И для того чтобы было понятно, о чем идет речь, рассмотрим задачу.

Световое табло состоит из лампочек. Каждая лампочка может находиться в одном из трех состояний (включена, выключена, или мигает). Необходимо определить наименьшее количество лампочек, которое должно находиться на табло, чтобы с его помощью можно было передавать 243 различных сигнала.

Если бы каждая лампочка могла находиться только в двух возможных состояниях, то для определения числа битов информации (что соответствует числу лампочек) мы воспользовались бы формулой (1.1). Здесь же это не подходит (т. к. лампочка может работать в трех режимах). Наиболее понятный способ решения данной задачи заключается в использовании правила произведения, о котором мы говорили ранее.

Так, в этом случае две лампочки позволяют обеспечить 9 сигналов (одна лампочка " выбирается" тремя способами и вторая лампочка " выбирается" тремя способами). Три лампочки позволяют сформировать 27 сигналов (3 в кубе), четыре обеспечат 81 сигнал, а пять лампочек сформируют 243 различных сигнала. Таким образом, минимально необходимо для 243 сигналов 5 лампочек.

Глава 2. Системы счисления

Одно из основных направлений информатики связано с разнообразными вычислениями. При этом действия над числовой информацией применяются не только при использовании вычислительных алгоритмов. В таких областях, как компьютерная графика и обработка звука, вычисления также занимают ключевое место. Так, с помощью математической обработки можно заметно улучшить качество изображения. При работе со звуком вычислительные алгоритмы позволяют выделить, подавить или усилить определенные звуковые частоты. Все это говорит о важности представления чисел в компьютере. Можно сказать, что представление чисел определяет способ записи данных и допустимый набор операций над ними.

Численная информация в компьютере имеет две важные особенности:

q числа записываются в двоичной системе счисления (а не в привычной десятичной);

q для записи и обработки чисел отводится конечное количество разрядов (в " некомпьютерной" арифметике такое ограничение отсутствует).

Виды систем счисления

Система счисления — это правило записи чисел с помощью заданного набора специальных знаков, называемых цифрами. Система счисления определяет способ представления числа. Можно выделить следующие виды систем счисления:

q унарная;

q непозиционные;

q позиционные.

Унарной называется система счисления, в которой для записи чисел используется только один знак — I (" палочка" ). Следующее число получается из предыдущего добавлением новой I, а их количество (сумма) равно самому числу. Именно такая система применяется для начального обучения детей счету (можно вспомнить " счетные палочки" ).

Из непозиционных наиболее распространенной можно считать римскую систему счисления. В ней некоторые базовые числа обозначены прописными латинскими буквами: 1 — I, 5 — V, 10 — X, 50 — L, 100 — C, 500 — D, 1000 — M. Все другие числа строятся из комбинаций базовых в соответствии со следующими правилами:

q если цифра меньшего значения стоит справа от большей цифры, то их значения суммируются; если слева — то меньшее значение вычитается из большего;

q любую из римских цифр запрещается записывать в одном числе более трех раз подряд;

q цифры V, L и D могут использоваться в записи числа не более одного раза.

Например, запись XIX соответствует десятичному числу 19, а MDXLIX — десятичному числу 1549. Запись чисел в такой системе громоздка и неудобна, но еще более неудобным оказывается выполнение в ней даже самых простых арифметических операций. Отсутствие нуля и знаков для чисел больших M не позволяют римскими цифрами записать любое число. По указанным причинам в настоящее время римская система используется лишь для нумерации. Римская система является аддитивной, т. к. значение числа образуется только при помощи сложения или вычитания значений цифр его образующих.

В настоящее время для представления чисел применяют, в основном, позиционные системы счисления. Позиционными называются такие системы счисления, в которых значение каждой цифры в изображении числа определяется ее положением (позицией) в ряду других цифр.

В позиционной системе счисления обязательно присутствует параметр, называемый основанием, который для определенности обозначим a. Значением a может быть целое положительное число (обязательно большее единицы). Кроме основания в любой системе счисления требуется выбрать a различных символов, которые называются цифрами.

Как вы знаете, числа бывают дробные и целые. И для последовательности объяснения мы разберем сначала только целые числа, а затем приведем необходимые сведения и по дробным числам. Целое число Z можно определить так:

Z = aM – 1 × bM – 1 + … + a1 × b1 + a0 × b0, (2.1)

где bi — символы, обозначающие цифры, при этом 0 £ bi £ a – 1. Здесь предполагается для определенности Z < aM, а M > 0. Индекс i представляет собой номер позиции цифры или, более правильно, номер разряда. Так, если исходное число большое, то разрядов в числе много (соответственно, в маленьких числах разрядов мало). Из коэффициентов bi при степенях основания строится сокращенная запись числа:

Z = bM – 1...b1b0. (2.2)

Понятно, что набор коэффициентов bi определяет конкретное число, только когда мы знаем, какое основание у системы счисления. В большинстве ситуаций основание подразумевается по умолчанию. Так, в математике в основном используется десятичная система счисления. Поэтому запись типа 375 в учебнике по математике все воспринимают однозначно. Однако в ситуациях, когда имеется неопределенность, необходимо указывать основание системы счисления. Для этого обычно используют нижний индекс:

q Z10 — число Z в десятичной системе счисления;

q Z8 — число Z в восьмеричной системе счисления.

В дальнейшем в этой главе мы так и будем поступать — там, где есть неопределенность, нижним индексом будем подчеркивать основание системы счисления.

Минимально значение a равно двум, что соответствует двоичной системе счисления. Цифрами в этом случае являются 0 и 1, а представление числа рассматривается по степеням двойки. Интерес именно к этой системе счисления связан с тем, что (об этом мы поговорим дальше) любая информация в компьютерах представляется с помощью двух состояний — 0 и 1, которые легко реализуются технически. Например, вариант числа в двоичной системе может выглядеть так:

Z = 11012 = 1 × 23 + 1 × 22 + 0 × 21 + 1 × 20. (2.3)

Наряду с двоичной системой, в компьютерах используются восьмеричная (с основанием 8) и шестнадцатеричная (с основанием 16). В нашей обычной жизни наиболее распространенной и привычной является десятичная система счисления (a = 10), в которой для записи чисел используется 10 цифр: 0, 1, 2, 3, 4, 5, 6, 7, 8 и 9. Приведем пример числа в десятичной системе счисления:

Z = 27210 = 2 × 102 + 7 × 101 + 2 × 100. (2.4)

В данном числе цифра 2 встречается дважды, однако, значение этих двух цифр различно, и оно определяется их положением (позицией) в числе. Количество цифр для построения чисел всегда равно основанию системы счисления. При этом максимальная цифра всегда на 1 меньше основания. Десятичная система счисления наиболее широкого распространена. Однако в истории человечества имеются свидетельства использования и других систем счисления — пятеричной, шестеричной, двенадцатеричной, двадцатеричной и даже шестидесятеричной.

Главной особенностью позиционного представления является то, что в нем посредством конечного набора знаков (цифр, разделителя десятичных разрядов и обозначения знака числа) можно записать неограниченное количество различных чисел. Кроме того, в позиционных системах гораздо легче, чем в других системах, осуществляются операции умножения и деления. Именно эти обстоятельства обуславливают доминирование позиционных систем при обработке чисел, как человеком, так и компьютером.


Поделиться:



Последнее изменение этой страницы: 2017-03-15; Просмотров: 738; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.023 с.)
Главная | Случайная страница | Обратная связь