Кодирование текстовых данных

⇐ ПредыдущаяСтр 3 из 6Следующая ⇒

Как мы уже выяснили, для передачи текста каждому символу алфавита необходимо сопоставить уникальный набор нулей и единиц. Это фактически представляет собой число в двоичной системе счисления (о системах счисления мы подробно поговорим в главе 2). С помощью восьми разрядов (байта) можно закодировать 256 различных символов. Этого вполне достаточно чтобы выразить различными комбинациями из восьми битов все символы русского и английского алфавита, как строчные, так и прописные буквы. Также кодируются знаки препинания и обозначения арифметических действий.

Разумеется, вариантов кодирования можно придумать много (какую букву сопоставить с каким кодом), и для взаимного понимания участников информационного обмена необходим определенный стандарт. В этом случае все будут однозначно понимать — какой код какой букве соответствует. И такая деятельность началась с того, что Институт стандартизации США ввел в использование систему кодирования ASCII(American Standart Code for Information Interchange, стандартный код информационного обмена США). В системе ASCII закреплены две таблицы — базовая и расширенная. Базовая таблица определяет значения кодов от 0 до 127 (число 127 в десятичной системе счисления), а расширенная относится к символам с номерами от 128 до 255 (эти числа также представлены в десятичной системе счисления).

Первые 32 символа базовой таблицы, начиная с нулевого, отданы производителям вычислительных средств. В этой области таблицы размещаются так называемые управляющие коды, которым не соответствуют никакие символы языков. Эти символы не выводятся на экран и на устройства печати.

Начиная с 32-го символа и заканчивая 127-м, размещены коды символов английского алфавита, знаков препинания, цифр, арифметических действий и некоторых вспомогательных символов.

Национальные системы кодирования каждой страны располагаются в расширенной части с кодами от 128 до 255. В России наиболее распространена кодировка символов русского языка, известная как Windows-1251. Она была введена компанией Microsoft. Учитывая популярность операционных систем этой компании, кодировка получила широкое распространение. Она используется на большинстве компьютеров, работающих на платформе Windows.

Однако имеется и другая распространенная кодировка — КОИ-8(код обмена информацией, восьмизначный); ее происхождение относится к временам действия Совета Экономической Взаимопомощи государств Восточной Европы. Сегодня кодировка КОИ-8 используется в компьютерных сетях на территории России и в российском секторе Интернета.

Имеется еще и международный стандарт, в котором предусмотрена кодировка символов русского алфавита. Она носит название кодировки ISO (International Standart Organization, Международный институт стандартизации). Однако на практике данная кодировка используется редко.

Если проанализировать организационные трудности, связанные с созданием единой системы кодирования текстовых данных, то можно прийти к выводу, что они вызваны ограниченным набором кодов (256). В тоже время, очевидно, что если кодировать символы не восьмиразрядными кодами, а кодами с большей разрядностью, то и количество возможных символов увеличится. Такая система, основанная на 16-разрядном кодировании символов, получила название универсальной — Unicode. Шестнадцать разрядов позволяют обеспечить размещение 65 536 символов.

Ситуации с тремя элементарными событиями

Как мы увидели в этой главе, вычисление количества информации строится на двух базовых информационных символах — нуле и единице. И для того чтобы было понятно, о чем идет речь, рассмотрим задачу.

Световое табло состоит из лампочек. Каждая лампочка может находиться в одном из трех состояний (включена, выключена, или мигает). Необходимо определить наименьшее количество лампочек, которое должно находиться на табло, чтобы с его помощью можно было передавать 243 различных сигнала.

Если бы каждая лампочка могла находиться только в двух возможных состояниях, то для определения числа битов информации (что соответствует числу лампочек) мы воспользовались бы формулой (1.1). Здесь же это не подходит (т. к. лампочка может работать в трех режимах). Наиболее понятный способ решения данной задачи заключается в использовании правила произведения, о котором мы говорили ранее.

Так, в этом случае две лампочки позволяют обеспечить 9 сигналов (одна лампочка " выбирается" тремя способами и вторая лампочка " выбирается" тремя способами). Три лампочки позволяют сформировать 27 сигналов (3 в кубе), четыре обеспечат 81 сигнал, а пять лампочек сформируют 243 различных сигнала. Таким образом, минимально необходимо для 243 сигналов 5 лампочек.

Глава 2. Системы счисления

Одно из основных направлений информатики связано с разнообразными вычислениями. При этом действия над числовой информацией применяются не только при использовании вычислительных алгоритмов. В таких областях, как компьютерная графика и обработка звука, вычисления также занимают ключевое место. Так, с помощью математической обработки можно заметно улучшить качество изображения. При работе со звуком вычислительные алгоритмы позволяют выделить, подавить или усилить определенные звуковые частоты. Все это говорит о важности представления чисел в компьютере. Можно сказать, что представление чисел определяет способ записи данных и допустимый набор операций над ними.

Численная информация в компьютере имеет две важные особенности:

q числа записываются в двоичной системе счисления (а не в привычной десятичной);

q для записи и обработки чисел отводится конечное количество разрядов (в " некомпьютерной" арифметике такое ограничение отсутствует).

Виды систем счисления

Система счисления — это правило записи чисел с помощью заданного набора специальных знаков, называемых цифрами. Система счисления определяет способ представления числа. Можно выделить следующие виды систем счисления:

q унарная;

q непозиционные;

q позиционные.

Унарной называется система счисления, в которой для записи чисел используется только один знак — I (" палочка" ). Следующее число получается из предыдущего добавлением новой I, а их количество (сумма) равно самому числу. Именно такая система применяется для начального обучения детей счету (можно вспомнить " счетные палочки" ).

Из непозиционных наиболее распространенной можно считать римскую систему счисления. В ней некоторые базовые числа обозначены прописными латинскими буквами: 1 — I, 5 — V, 10 — X, 50 — L, 100 — C, 500 — D, 1000 — M. Все другие числа строятся из комбинаций базовых в соответствии со следующими правилами:

q если цифра меньшего значения стоит справа от большей цифры, то их значения суммируются; если слева — то меньшее значение вычитается из большего;

q любую из римских цифр запрещается записывать в одном числе более трех раз подряд;

q цифры V, L и D могут использоваться в записи числа не более одного раза.

Например, запись XIX соответствует десятичному числу 19, а MDXLIX — десятичному числу 1549. Запись чисел в такой системе громоздка и неудобна, но еще более неудобным оказывается выполнение в ней даже самых простых арифметических операций. Отсутствие нуля и знаков для чисел больших M не позволяют римскими цифрами записать любое число. По указанным причинам в настоящее время римская система используется лишь для нумерации. Римская система является аддитивной, т. к. значение числа образуется только при помощи сложения или вычитания значений цифр его образующих.

В настоящее время для представления чисел применяют, в основном, позиционные системы счисления. Позиционными называются такие системы счисления, в которых значение каждой цифры в изображении числа определяется ее положением (позицией) в ряду других цифр.

В позиционной системе счисления обязательно присутствует параметр, называемый основанием, который для определенности обозначим a. Значением a может быть целое положительное число (обязательно большее единицы). Кроме основания в любой системе счисления требуется выбрать a различных символов, которые называются цифрами.

Как вы знаете, числа бывают дробные и целые. И для последовательности объяснения мы разберем сначала только целые числа, а затем приведем необходимые сведения и по дробным числам. Целое число Z можно определить так:

Z = a^M^{– 1} × b_M_{– 1} + … + a¹ × b₁ + a⁰ × b₀,

(2.1)

где b_i — символы, обозначающие цифры, при этом 0 £ b_i £ a – 1. Здесь предполагается для определенности Z < a^M, а M > 0. Индекс i представляет собой номер позиции цифры или, более правильно, номер разряда. Так, если исходное число большое, то разрядов в числе много (соответственно, в маленьких числах разрядов мало). Из коэффициентов b_i при степенях основания строится сокращенная запись числа:

Z = b_M_{– 1}...b₁b₀.

(2.2)

Понятно, что набор коэффициентов b_i определяет конкретное число, только когда мы знаем, какое основание у системы счисления. В большинстве ситуаций основание подразумевается по умолчанию. Так, в математике в основном используется десятичная система счисления. Поэтому запись типа 375 в учебнике по математике все воспринимают однозначно. Однако в ситуациях, когда имеется неопределенность, необходимо указывать основание системы счисления. Для этого обычно используют нижний индекс:

q Z₁₀ — число Z в десятичной системе счисления;

q Z₈ — число Z в восьмеричной системе счисления.

В дальнейшем в этой главе мы так и будем поступать — там, где есть неопределенность, нижним индексом будем подчеркивать основание системы счисления.

Минимально значение a равно двум, что соответствует двоичной системе счисления. Цифрами в этом случае являются 0 и 1, а представление числа рассматривается по степеням двойки. Интерес именно к этой системе счисления связан с тем, что (об этом мы поговорим дальше) любая информация в компьютерах представляется с помощью двух состояний — 0 и 1, которые легко реализуются технически. Например, вариант числа в двоичной системе может выглядеть так:

Z = 1101₂ = 1 × 2³ + 1 × 2² + 0 × 2¹ + 1 × 2⁰.

(2.3)

Наряду с двоичной системой, в компьютерах используются восьмеричная (с основанием 8) и шестнадцатеричная (с основанием 16). В нашей обычной жизни наиболее распространенной и привычной является десятичная система счисления (a = 10), в которой для записи чисел используется 10 цифр: 0, 1, 2, 3, 4, 5, 6, 7, 8 и 9. Приведем пример числа в десятичной системе счисления:

Z = 272₁₀ = 2 × 10² + 7 × 10¹ + 2 × 10⁰.

(2.4)

В данном числе цифра 2 встречается дважды, однако, значение этих двух цифр различно, и оно определяется их положением (позицией) в числе. Количество цифр для построения чисел всегда равно основанию системы счисления. При этом максимальная цифра всегда на 1 меньше основания. Десятичная система счисления наиболее широкого распространена. Однако в истории человечества имеются свидетельства использования и других систем счисления — пятеричной, шестеричной, двенадцатеричной, двадцатеричной и даже шестидесятеричной.

Главной особенностью позиционного представления является то, что в нем посредством конечного набора знаков (цифр, разделителя десятичных разрядов и обозначения знака числа) можно записать неограниченное количество различных чисел. Кроме того, в позиционных системах гораздо легче, чем в других системах, осуществляются операции умножения и деления. Именно эти обстоятельства обуславливают доминирование позиционных систем при обработке чисел, как человеком, так и компьютером.

⇐ Предыдущая 1 234 5 6 Следующая ⇒

Последнее изменение этой страницы: 2017-03-15; Просмотров: 772; Нарушение авторского права страницы