Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Меры информации синтаксического уровня ⇐ ПредыдущаяСтр 6 из 6
Количественная оценка информации этого уровня не связана с содержательной стороной информации, а оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. В связи с этим данная мера дает возможность оценки информационных потоков в таких разных по своей природе объектах, как системы связи, вычислительные машины, системы управления, нервная система живого организма и т. п. Для измерения информации на синтаксическом уровне вводятся два параметра: объем информации (данных) — Vg (объемный подход) и количество информации — I (энтропийный подход). Объем информации Vg (объемный подход). При реализации информационных процессов информация передается в виде сообщения, представляющего собой совокупность символов какого-либо алфавита. При этом каждый новый символ в сообщении увеличивает количество информации, представленной последовательностью символов данного алфавита. Если теперь количество информации, содержащейся в сообщении из одного символа, принять за единицу, то объем информации (данных) Vg в любом другом сообщении будет равен количеству символов (разрядов) в этом сообщении. Так как одна и та же информация может быть представлена многими разными способами (с использованием разных алфавитов), то и единица измерения информации (данных) соответственно будет меняться. Так, в десятичной системе счисления один разряд имеет вес, равный 10, и соответственно единицей измерения информации будет дит (десятичный разряд). В этом случае сообщение в виде п- разрядного числа имеет объем данных Vg — n дит. Например, четырехразрядное число 2003 имеет объем данных Vg = 4 дит. В двоичной системе счисления один разряд имеет вес, равный 2, и соответственно единицей измерения информации будет — бит (bit — binary digit — двоичный разряд). В этом случае сообщение в виде n-разрядного числа имеет объем данных V = п бит. Например, восьмиразрядный двоичный код 11001011 имеет объем данных V = 8 бит. 9 В современной вычислительной технике наряду с минимальнои единицей измерения данных «бит» широко используется укрупненная единица измерения «байт», равная 8 бит. При работе с большими объемами информации для подсчета ее количества применяют более крупные единицы измерения, такие как килобайт (Кбайт), мегабайт (Мбайт), гигабайт (Гбайт), терабайт (Тбайт): 1 Кбайт = 1024 байт = 210 байт; 1 Мбайт = 1024 Кбайт = 220 байт = 1 048 576 байт; 1 Гбайт = 1024 Мбайт = 230 байт = 1 073 741 824 байт; 1 Тбайт = 1024 Гбайт = 240 байт = 1 099 511 627 776 байт. Следует обратить внимание, что в системе измерения двоичной (компьютерной) информации, в отличие от метрической системы, единицы с приставками «кило», «мега» и т. д. получаются путем умножения основной единицы не на 103= 1000, 106= 1000 000 ит. д., а на 2Ш= 1024, 220= 1048576 и т. д. Количество информации I (энтропийный подход). В теории информации и кодирования принят энтропийный подход к измерению информации. Этот подход основан на том, что факт получения информации всегда связан с уменьшением разнообразия или неопределенности (энтропии) системы. Исходя из этого количество информации в сообщении определяется как мера уменьшения неопределенности состояния данной системы после получения сообщения. Неопределенность может быть интерпретирована в смысле того, насколько мало известно наблюдателю о данной системе. Как только наблюдатель выявил что-нибудь в физической системе, энтропия системы снизилась, так как для наблюдателя система стала более упорядоченной. Таким образом, при энтропийном подходе под информацией понимается количественная величина исчезнувшей в ходе како- го-либо процесса (испытания, измерения и т. д.) неопределенности. При этом в качестве меры неопределенности вводится энтропия Н, а количество информации равно: I = H —Н, (1) арг aps' V * I где Нарг — априорная энтропия о состоянии исследуемой системы или процесса. Нар$— апостериорная энтропия. Апостериори (от лат. a posteriori — из последующего) — происходящее из опыта (испытания, измерения). Априори — (от лат. a priori — из предшествующего) — понятие, характеризующее знание, предшествующее опыту (испытанию), и независимое от него. В случае когда в ходе испытания имевшаяся неопределенность снята (получен конкретный результат, т. е. Haps = 0), количество полученной информации совпадает с первоначальной энтропией I — Н. арг Рассмотрим в качестве исследуемой системы дискретный источник информации (источник дискретных сообщений), под которым будем понимать физическую систему, имеющую конечное множество возможных состояний {д(.}, i = \, т. Все множество Л = { а,, а2, ..., ат} состояний системы в теории информации называют абстрактным алфавитом, или алфавитом источника сообщений. Отдельные состояния а,, а^..., ат называют буквами или символами алфавита. Такая система может в каждый момент времени случайным образом принять одно из конечных множеств возможных состояний — а.. При этом говорят, что различные состояния реализуются вследствие выбора их источником. Поскольку одни состояния выбираются источником чаще, а другие реже, то в общем случае он характеризуется ансамблем А, т. е. полной совокупностью состояний с вероятностями их появления, составляющими в сумме единицу: [1] А-210 Американский ученый К. Шеннон обобщил понятие меры неопределенности выбора Н на случай, когда Н зависит не только от числа состояний, но и от вероятностей этих состояний (вероятностей р( выбора символов а. алфавита А). Эту меру, представляющую собой неопределенность, приходящуюся в среднем на одно состояние, называют энтропией дискретного источника информации. # = -! />, log р,. (2.5) 1=1 Если снова ориентироваться на измерение неопределенности в двоичных единицах, то основание логарифма следует принять равным двум. N Н = -1р, ]og2pr (2.6) /=1 При равновероятных выборах все p=l/N и формула (2.6) преобразуется в формулу Р. Хартли (2.3): N 111 н = -ъ Pi log Pi =-N —log — = -N —(log 1 - log N) = log2 N. i=i 2 N 2 N N 2 2 Предложенная мера была названа энтропией не случайно. Дело в том, что формальная структура выражения (2.5) совпадает с энтропией физической системы, определенной ранее Больцманом. Согласно второму закону термодинамики энтропия Н замкнутого 1 v т< пространства определяется выражением: Н - - ^ m/'n, где МП ' мп Мп — число молекул в данном пространстве; т. — число молекул, обладающих скоростью v. + A v. Так как т./Мп есть вероятность того, что молекула имеет скорость v.+Av, то Н можно записать N как Я = -X р№рг Данная формула полностью совпадает с (2.5) — /=1 в обоих случаях величина Я характеризует степень разнообразия системы. Используя формулы (2.4) и (2.6), можно определить избыточность D алфавита источника сообщений — А, которая показывает, насколько рационально применяются символы данного алфавита: D = -H(A)]/[HmJA)]r (2.7) где Нтйх(А) — максимально возможная энтропия, определяемая по формуле (2.4); Н(А) — энтропия источника, определяемая по формуле (2.6). Суть данной меры заключается в том, что при равновероятном выборе ту же информационную нагрузку на знак можно обеспечить, используя алфавит меньшего объема, чем в случае с неравновероятным выбором. Пример. Согласно экспериментальным данным безусловные вероятности букв русского и английского алфавитов характеризуются табл. 2.1 и 2.2 соответственно. Требуется найти энтропии источников А1 и А2, выдающих текст из букв русского и английского алфавитов соответственно, при отсутствии статистических связей между буквами, а также вычислить избыточность источников, выдающих тексты, обусловленную неравновероятностью выбора букв. Талица 2.1 Таблица 2.2
Решение. Найдем энтропии источников А1 и А2, используя формулу (2.6).
Н(А1) = — 0, 1751og20, 175-0, 091og20, 09-...-0, 0021og20, 002 = 4, 35 (бит/символ). Н(А2) = — 0, 21од20, 2 — 0, 1051од20, 105-...-0, 0011од20, 001 « 4, 03 (бит/символ). По формуле (2.4) находим: Hmax(Al) = 1од232 = 5 (бит/символ). А2) = 1од227 « 4, 75 (бит/символ). Избыточность источников находим по формуле (2.7): £ > (А1) = (5 — 4, 35)/5 = 0, 13. D{ А2) =(4, 75 — 4, 03)/4, 75 = 0, 15. Полученные результаты позволяют сделать вывод о том, что избыточность, а следовательно, и неравномерность распределения вероятностей букв источника А2 — латинского алфавита больше, чем у источника А1 — русского алфавита. |
Последнее изменение этой страницы: 2017-03-14; Просмотров: 682; Нарушение авторского права страницы