Кибернетический (алфавитный) подход к измерению информации

Изучаемые вопросы:

ª Что такое алфавит, мощность алфавита.

ª Что такое информационный вес символа в алфавите.

ª Как измерить информационный объем текста с алфавитной точки зрения.

ª Что такое байт, килобайт, мегабайт, гигабайт.

ª Скорость информационного потока и пропускная способность канала.

Рассматриваемый в этой теме подход к измерению информации является альтернативным к содержательному подходу, обсуждавшемуся ранее. Здесь речь идет об измерении количества информации в тексте (символьном сообщении), составленном из символов некоторого алфавита. К содержанию текста такая мера информации отношения не имеет. Поэтому такой подход можно назвать объективным, т.е. не зависящим от воспринимающего его субъекта.

Алфавитный подход — это единственный способ измерения информации, который может применяться по отношению к информации, циркулирующей в информационной технике, в компьютерах.

Опорным в этой теме является понятие алфавита. Алфавит — это конечное множество символов, используемых для представления информации. Число символов в алфавите называется мощностью алфавита (термин взят из математической теории множеств). В основном содержании базового курса алфавитный подход рассматривается лишь с позиции равновероятного приближения. Это значит, что допускается предположение о том, что вероятности появления всех символов алфавита в любой позиции в тексте одинаковы. Разумеется, это не соответствует реальности и является упрощающим предположением.

В рассматриваемом приближении количество информации, которое несет в тексте каждый символ (i), вычисляется из уравнения Хартли: 2ⁱ = N, где N — мощность алфавита. Величину i можно назвать информационным весом символа. Отсюда следует, что количество информации во всем тексте (i), состоящем из К символов, равно произведению информационного веса символа на К: I = i´ К. Эту величину можно назвать информационным объемом текста. Такой подход к измерению информации еще называют объемным подходом.

Полезно обсудить с учениками следующий вопрос: какова минимальная мощность алфавита, с пoмощыо которого можно записывать (кодировать) информацию? Этот вопрос напрямую связан с заданием № 3 к § 3 учебника [11], которое звучит так: «Докажите, что исходя из алфавитного подхода, сообщение любой длины, использующее односимвольный алфавит, содержит нулевую информацию».

Предположим, что используемый алфавит состоит всего из одного символа, например «1». Интуитивно понятно, что сообщить что-либо с помощью единственного символа невозможно. Но это же доказывается строго с точки зрения алфавитного подхода. Информационный вес символа в таком алфавите находится из уравнения: 2ⁱ= 1. Но поскольку 1 = 2°, то отсюда следует, что i = 0 бит. Полученный вывод можно проиллюстрировать следующим образным примером. Представьте себе толстую книгу в 1000 страниц, на всех страницах которой написаны одни единицы (единственный символ используемого алфавита). Сколько информации в ней содержится? Ответ: нисколько, ноль. Причем такой ответ получается с любой позиции, как с содержательной, так и с алфавитной.

Минимальная мощность алфавита, пригодного для передачи информации, равна 2. Такой алфавит называется двоичным алфавитом. Информационный вес символа в двоичном алфавите легко определить. Поскольку 2ⁱ = 2, то i = 1 бит. Итак, один символ двоичного алфавита несет 1 бит информации. С этим обстоятельством ученики снова встретятся, когда будут знакомиться с алфавитом внутреннего языка компьютера — языка двоичного кодирования.

Бит — основная единица измерения информации. Кроме нее используются и другие единицы. Следует обратить внимание учеников на то, что в любой метрической системе существуют единицы основные (эталонные) и производные от них. Например, основная физическая единица длины — метр. Но существуют миллиметр, сантиметр, километр. Расстояния разного размера удобно выражать через разные единицы. Так же обстоит дело и с измерением информации. 1 бит — это исходная единица. Следующая по величине единица — байт. Байт вводится как информационный вес символа из алфавита мощностью 256. Поскольку 256 = 2⁸, то 1 байт = 8 бит. Мы снова встречаемся с темой, которая является своеобразной пропедевтикой к будущему изучению компьютера.

Уже в рамках данной темы можно сообщить ученикам, что компьютер для внешнего представления текстов и другой символьной информации использует алфавит мощностью 256 (во внутреннем представлении любая информация в компьютере кодируется в двоичном алфавите). Фактически, для выражения объема компьютерной информации в качестве основной единицы используется байт.

Представляя ученикам более крупные единицы: килобайт, мегабайт, гигабайт — нужно обратить их внимание на то, что мы привыкли приставку «кило» воспринимать, как увеличение в 1000 раз. В информатике это не так. Килобайт больше байта в 1024 раза, а число 1024 = 2¹⁰. Так же относится и «мега» по отношению к «кило» и т.д. Тем не менее часто при приближенных вычислениях используют коэффициент 1000.

В рамках углубленного курса учитель может изложить алфавитный подход в более адекватном варианте, без допущения равновероятности символов. Теоретический и практический материал на эту тему можно найти в пособии [8] в подразделе 1.4.

Примеры решения задач

Задачи по теме «Измерение информации. Содержательный подход» связаны с использованием уравнения 2ⁱ = N. Возможны два варианта условия задачи: 1) дано N, найти i; 2) дано i, найти N.

В случаях, когда N равно целой степени двойки, желательно, чтобы ученики выполняли вычисления «в уме». Как уже говорилось выше, полезно запомнить ряд целых степеней числа 2 хотя бы до 2¹⁰. В противном случае следует использовать таблицу решения уравнения 2ⁱ = N, приведенную в [25] и [8], в которой рассматриваются значения N от 1 до 64.

Для основного уровня изучения базового курса предлагаются задачи, связанные с сообщениями о равновероятных событиях. Ученики должны это понимать и обязательно качественно обосновывать, используя термин «равновероятные события».

Пример 1. Сколько бит информации несет сообщение о том, что из колоды в 32 карты достали даму пик?

Решение. При случайном вытаскивании карт из перемешанной колоды ни одна из карт не имеет преимущества быть выбранной по сравнению с другими. Следовательно, случайный выбор любой карты, в том числе и дамы пик — события равновероятные. Отсюда следует, что неопределенность знаний о результате вытаскивания карты равна 32 — числу карт в колоде. Если i — количество информации в сообщении о результате вытаскивания одной карты (дамы пик), то имеем уравнение:

2ⁱ = 32.

Поскольку 32 = 2⁵, то, следовательно, i = 5 бит.

На тему данной задачи учитель может предложить еще несколько заданий. Например: сколько информации несет сообщение о том, что из колоды карт достали карту красной масти? (1 бит, так как красных и черных карт одинаковое количество).

Сколько информации несет сообщение о том, что из колоды карт достали карту бубновой масти? (2 бита, так как всего в колоде 4 масти и количество карт в них равные).

Пример 2. Проводится две лотереи: «4 из 32» и «5 из 64». Сообщение о результатах какой из лотерей несет больше информации?

Решение. У этой задачи есть «подводный камень», на который может натолкнуться учитель. Первый путь решения тривиальный: вытаскивание любого номера из лотерейного барабана — события равновероятные. Поэтому в первой лотерее количество информации в сообщении об одном номере равно 5 бит (2⁵ = 32), а во второй — 6 бит (2^б = 64). Сообщение о четырех номерах в первой лотерее несет 5´ 4 = 20 бит. Сообщение о пяти номерах второй лотереи несет 6´ 5 = 30 бит. Следовательно, сообщение о результатах второй лотереи несет больше информации, чем о результатах первой.

Но возможен и другой путь рассуждения. Представьте себе, что вы наблюдаете за розыгрышем лотереи. Выбор первого шара производится из 32 шаров в барабане. Результат несет 5 бит информации. Но 2-й шар будет выбираться уже из 31 номера, 3-й — из 30 номеров, 4-й — из 29. Значит, количество информации, которое несет 2-й номер, находится из уравнения: 2ⁱ = 31. Используя таблицу решения этого уравнения, находим: i = 4, 95420 бит. Для 3-го номера: 2ⁱ = 30; i = 4, 90689 бит. Для 4-го номера: 2ⁱ' = 29; i = 4, 85798 бит. В сумме получаем: 5 + 4, 95420 + 4, 90689 + 4, 85798 = = 19, 71907 бит. Аналогично и для второй лотереи. Конечно, на окончательном выводе такие подсчеты не отразятся. Можно было вообще, ничего не вычисляя, сразу ответить, что второе сообщение несет больше информации, чем первое. Но здесь интересен сам путь вычислений с учетом «выбывания участников».

Последовательность событий в этом случае не является независимой друг от друга (кроме первого). Это, как мы увидели, отражается в различии информативности сообщений о каждом из них. Первый (тривиальный) вариант решения задачи получен в предположении независимости событий и является в таком случае неточным.

В условиях задач по теме «Измерение информации. Алфавитный подход» связываются между собой следующие величины: мощность символьного алфавита — N; информационный вес символа — /; число символов в тексте (объем текста) — К; количество информации, заключенной в тексте (информационный объем текста) — I. Кроме того, при решении задач требуется знать связь между различными единицами информации: бит, байт, килобайт, мегабайт, гигабайт.

Задачи, соответствующие уровню минимального содержания базового курса, рассматривают лишь приближение равновероятного алфавита, т. е. допущение того, что появление любого символа в любой позиции текста — равновероятно. В задачах для углубленного уровня обучения используется более реальное предположение о неравновероятности символов. В таком случае, появляется еще один параметр — вероятность символа (р).

Пример 3. Два текста содержат одинаковое количество символов. Первый текст составлен в алфавите мощностью 32 символа, второй — мощностью 64 символа. Во сколько раз отличается количество информации в этих текстах?

Решение. В равновероятном приближении информационный объем текста равен произведению числа символов на информационный вес одного символа:

Поскольку оба текста имеют одинаковое число символов (К), то различие информационных объемов определяется только разницей в информативности символов алфавита (i). Найдем i₁ для первого алфавита и i₂ для второго алфавита:

2ⁱ¹ = 32, отсюда i₁ = 5 бит;

2ⁱ² = 64, отсюда i₂ = 6 бит.

Следовательно, информационные объемы первого и второго текстов будут равны:

I₁ = К× 5 бит, 1₂=К× 6 бит.

Отсюда следует, что количество информации во втором тексте больше, чем в первом в 6/5, или в 1, 2 раза.

Пример 4. Объем сообщения, содержащего 2048 символов, составил 1/512 часть Мбайта. Каков размер алфавита, с помощью которого записано сообщение?

Решение. Переведем информационный объем сообщения из мегабайтов в биты. Для этого данную величину умножим дважды на 1024 (получим байты) и один раз — на 8:

I = 1/512•1024•1024•8 = 16384 бит.

Поскольку такой объем информации несут 1024 символа (К), то на один символ приходится:

i = I/K = 16384/1024 = 16 бит.

Отсюда следует, что размер (мощность) использованного алфавита равен 2¹⁶ = 65 536 символов.

Заметим, что именно такой алфавит через некоторое время станет международным стандартом для представления символьной информации в компьютере (кодировка Unicode).

Процесс хранения информации

Изучаемые вопросы:

ª Носители информации.

ª Виды памяти.

ª Хранилища информации.

ª Основные свойства хранилищ информации.

Понятие «информационные процессы», так же как и понятие «информация», является базовым в курсе информатики. Под информационными процессами понимаются любые действия, выполняемые с информацией. Примеры информационных процессов, с которыми нам приходится постоянно иметь дело: получение информации из средств СМИ, обучение, принятие управляющих решений, разработка технического проекта, документооборот на предприятии, сдача экзаменов и многие другие. Согласно схеме 1 существуют три основных типа информационных процессов, которые как составляющие присутствуют в любых других более сложных процессах. Это хранение информации, передача информации и обработка информации. Первоначально следует рассмотреть эти процессы без привязки к компьютеру, т. е. применительно к человеку. Затем, при изучении архитектуры ЭВМ, компьютерных информационных технологий речь пойдет о реализации тех же самых информационных процессов с помощью ЭВМ.

С хранением информации связаны следующие понятия: носитель информации (память), внутренняя память, внешняя память, хранилище информации.

Носитель информации — это физическая среда, непосредственно хранящая информацию. Основным носителем информации для человека является его собственная биологическая память (мозг человека). Собственную память человека можно назвать оперативной памятью. Здесь слово «оперативный» является синонимом слова «быстрый». Заученные знания воспроизводятся человеком мгновенно. Собственную память мы еще можем назвать внутренней памятью, поскольку ее носитель — мозг — находится внутри нас.

Все прочие виды носителей информации можно назвать внешними (по отношению к человеку). Виды этих носителей менялись со временем: в древности были камень, дерево, папирус, кожа и пр. Во II в. нашей эры в Китае была изобретена бумага. Однако до Европы она дошла лишь в XI в. С тех пор бумага является основным внешним носителем информации. Развитие информационной техники привело к созданию магнитных, оптических и других современных видов носителей информации

Хранилище информации — это определенным образом организованная информация на внешних носителях, предназначенная для длительного хранения и постоянного использования. Примерами хранилищ являются архивы документов, библиотеки, справочники, картотеки. Основной информационной единицей хранилища является определенный физический документ: анкета, книга, дело, досье, отчет и пр. Под организацией хранилища понимается наличие определенной структуры, т.е. упорядоченность, классификация хранимых документов. Такая организация необходима для удобства ведения хранилища: пополнения новыми документами, удаления ненужных, поиска информации и пр.

Знания, сохраненные в памяти человека, можно рассматривать как внутреннее хранилище информации, однако его организацию нам понять трудно. Основное свойство человеческой памяти — быстрота, оперативность воспроизведения хранящейся в ней информации. Но, по сравнению с внешними хранилищами, человеческая память менее надежна. Человеку свойственно забывать информацию. Хотя психологи утверждают, что из памяти человека ничего не исчезает, тем не менее способность к воспроизведению некоторых знаний довольно часто теряется человеком. Именно для более надежного хранения человек использует внешние носители, организует хранилища. Впрочем, известен исторический феномен в этом отношении: у народа древних инков не было письменности. Все свои знания они хранили в собственной памяти. С нашей точки зрения в этом случае трудно объяснить возможность достижения высокого уровня цивилизации инков.

Основные свойства хранилища информации: объем хранимой информации, надежность хранения, время доступа (т. е. время поиска нужных сведений), наличие защиты информации.

Информацию, хранимую на устройствах компьютерной памяти, принято называть данными. Для описания хранения данных в компьютере используются те же понятия: носитель, хранилище данных, организация данных, время доступа, защита данных. Организованные хранилища данных на устройствах внешней памяти компьютера принято называть базами и банками данных. Подробнее эти вопросы будут обсуждаться в теме «Базы данных и информационные системы».

⇐ Предыдущая 13 14 15 16 171819 20 21 22 Следующая ⇒

Последнее изменение этой страницы: 2017-05-05; Просмотров: 768; Нарушение авторского права страницы