Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Меры информации синтаксического уровня



 

Количественная оценка информации этого уровня не связана с содержательной стороной информации, а оперирует с обезли­ченной информацией, не выражающей смыслового отношения к объекту. В связи с этим данная мера дает возможность оценки информационных потоков в таких разных по своей природе объек­тах, как системы связи, вычислительные машины, системы управ­ления, нервная система живого организма и т. п.

Для измерения информации на синтаксическом уровне вводят­ся два параметра: объем информации (данных) — Vg (объемный подход) и количество информации — I (энтропийный подход).

Объем информации Vg (объемный подход). При реализации ин­формационных процессов информация передается в виде сообще­ния, представляющего собой совокупность символов какого-либо алфавита. При этом каждый новый символ в сообщении увеличи­вает количество информации, представленной последовательнос­тью символов данного алфавита. Если теперь количество инфор­мации, содержащейся в сообщении из одного символа, принять за единицу, то объем информации (данных) Vg в любом другом сооб­щении будет равен количеству символов (разрядов) в этом сооб­щении. Так как одна и та же информация может быть представле­на многими разными способами (с использованием разных алфа­витов), то и единица измерения информации (данных) соответ­ственно будет меняться.

Так, в десятичной системе счисления один разряд имеет вес, равный 10, и соответственно единицей измерения информации будет дит (десятичный разряд). В этом случае сообщение в виде п- разрядного числа имеет объем данных Vg — n дит. Например, четы­рехразрядное число 2003 имеет объем данных Vg = 4 дит.

В двоичной системе счисления один разряд имеет вес, равный 2, и соответственно единицей измерения информации будет — бит (bit — binary digit — двоичный разряд). В этом случае сообщение в виде n-разрядного числа имеет объем данных V = п бит. Напри­мер, восьмиразрядный двоичный код 11001011 имеет объем дан­ных V = 8 бит.

9

В современной вычислительной технике наряду с минимальнои единицей измерения данных «бит» широко используется укруп­ненная единица измерения «байт», равная 8 бит. При работе с боль­шими объемами информации для подсчета ее количества приме­няют более крупные единицы измерения, такие как килобайт (Кбайт), мегабайт (Мбайт), гигабайт (Гбайт), терабайт (Тбайт):

1 Кбайт = 1024 байт = 210 байт;

1 Мбайт = 1024 Кбайт = 220 байт = 1 048 576 байт;

1 Гбайт = 1024 Мбайт = 230 байт = 1 073 741 824 байт;

1 Тбайт = 1024 Гбайт = 240 байт = 1 099 511 627 776 байт.

Следует обратить внимание, что в системе измерения двоичной (компьютерной) информации, в отличие от метрической системы, единицы с приставками «кило», «мега» и т. д. получаются путем умножения основной единицы не на 103= 1000, 106= 1000 000 ит. д., а на 2Ш= 1024, 220= 1048576 и т. д.

Количество информации I (энтропийный подход). В теории ин­формации и кодирования принят энтропийный подход к измере­нию информации. Этот подход основан на том, что факт получе­ния информации всегда связан с уменьшением разнообразия или неопределенности (энтропии) системы. Исходя из этого количе­ство информации в сообщении определяется как мера уменьше­ния неопределенности состояния данной системы после получе­ния сообщения. Неопределенность может быть интерпретирова­на в смысле того, насколько мало известно наблюдателю о данной системе. Как только наблюдатель выявил что-нибудь в физичес­кой системе, энтропия системы снизилась, так как для наблюдате­ля система стала более упорядоченной.

Таким образом, при энтропийном подходе под информацией понимается количественная величина исчезнувшей в ходе како- го-либо процесса (испытания, измерения и т. д.) неопределеннос­ти. При этом в качестве меры неопределенности вводится энтро­пия Н, а количество информации равно:

I = H —Н, (1)

арг aps' V * I

где Нарг — априорная энтропия о состоянии исследуемой системы или процесса.

Нар$— апостериорная энтропия.

Апостериори (от лат. a posteriori — из последующего) — проис­ходящее из опыта (испытания, измерения).

Априори — (от лат. a priori — из предшествующего) — понятие, характеризующее знание, предшествующее опыту (испытанию), и независимое от него.

В случае когда в ходе испытания имевшаяся неопределенность снята (получен конкретный результат, т. е. Haps = 0), количество полученной информации совпадает с первоначальной энтропией I — Н.

арг

Рассмотрим в качестве исследуемой системы дискретный ис­точник информации (источник дискретных сообщений), под ко­торым будем понимать физическую систему, имеющую конечное

множество возможных состояний {д(.}, i = \, т.

Все множество Л = { а,, а2, ..., ат} состояний системы в теории информации называют абстрактным алфавитом, или алфавитом источника сообщений.

Отдельные состояния а,, а^..., ат называют буквами или симво­лами алфавита.

Такая система может в каждый момент времени случайным обра­зом принять одно из конечных множеств возможных состояний — а.. При этом говорят, что различные состояния реализуются вслед­ствие выбора их источником.

Поскольку одни состояния выбираются источником чаще, а другие реже, то в общем случае он характеризуется ансамблем А, т. е. полной совокупностью состояний с вероятностями их появле­ния, составляющими в сумме единицу:

[1] А-210

Американский ученый К. Шеннон обобщил понятие меры нео­пределенности выбора Н на случай, когда Н зависит не только от числа состояний, но и от вероятностей этих состояний (вероятно­стей р( выбора символов а. алфавита А). Эту меру, представляю­щую собой неопределенность, приходящуюся в среднем на одно состояние, называют энтропией дискретного источника инфор­мации.

# = -! />, log р,. (2.5)

1=1

Если снова ориентироваться на измерение неопределенности в двоичных единицах, то основание логарифма следует принять равным двум.

N

Н = -1р, ]og2pr (2.6)

/=1

При равновероятных выборах все p=l/N и формула (2.6) пре­образуется в формулу Р. Хартли (2.3):

N 111

н = -ъ Pi log Pi =-N —log — = -N —(log 1 - log N) = log2 N.

i=i 2 N 2 N N 2 2

Предложенная мера была названа энтропией не случайно. Дело в том, что формальная структура выражения (2.5) совпадает с энт­ропией физической системы, определенной ранее Больцманом. Согласно второму закону термодинамики энтропия Н замкнутого

1 v т<

пространства определяется выражением: Н - - ^ m/'n, где

МП ' мп

Мп — число молекул в данном пространстве; т. — число молекул, обладающих скоростью v. + A v. Так как т./Мп есть вероятность того, что молекула имеет скорость v.+Av, то Н можно записать

N

как Я = -X ррг Данная формула полностью совпадает с (2.5) — /=1

в обоих случаях величина Я характеризует степень разнообразия системы.

Используя формулы (2.4) и (2.6), можно определить избыточ­ность D алфавита источника сообщений — А, которая показыва­ет, насколько рационально применяются символы данного алфа­вита:

D = -H(A)]/[HmJA)]r (2.7)

где Нтйх(А) — максимально возможная энтропия, определяемая по формуле (2.4);

Н(А) — энтропия источника, определяемая по формуле (2.6).

Суть данной меры заключается в том, что при равновероятном выборе ту же информационную нагрузку на знак можно обеспе­чить, используя алфавит меньшего объема, чем в случае с нерав­новероятным выбором.

Пример. Согласно экспериментальным данным безусловные вероятности букв русского и английского алфавитов характери­зуются табл. 2.1 и 2.2 соответственно.

Требуется найти энтропии источников А1 и А2, выдающих текст из букв русского и английского алфавитов соответственно, при от­сутствии статистических связей между буквами, а также вычис­лить избыточность источников, выдающих тексты, обусловленную неравновероятностью выбора букв.

Талица 2.1 Таблица 2.2

Бук­ва Вероят­ность Бук­ва Вероят­ность Бук­ва Вероят­ность
Про­бел 0, 2 Н 0, 047 W 0, 012
Е 0, 105 D 0, 035 G 0, 011
т 0, 072 L 0, 028 В 0, 010
О 0, 065 С 0, 023 V 0, 008
F 0, 063 F 0, 023 К 0, 003
N 0, 058 и 0, 023 X 0, 001
I 0, 055 М 0, 021 J 0, 001
R 0.052 Р 0, 018 Q 0, 001
S 0, 052 Y 0, 012 z 0, 001
Бук­ва Вероят­ность Бук­ва Вероят­ность Бук­ва Вероят­ность
Про­бел 0, 175 К 0, 028 Ч 0.012
0, 090 М 0, 026 И 0, 010
Е 0, 072 Д 0, 025 X 0, 009
А 0, 062 п 0.023 ж 0, 007
И 0, 062 У 0, 021 ю 0, 006
т 0, 053 я 0, 018 ш 0, 006
Н 0, 053 ы 0, 016 ц 0, 004
С 0, 045 0, 016 щ 0, 003
Р 0, 040 ь, ъ 0, 014 э 0, 002
В 0, 038 Б 0, 014 ф 0, 002
Л 0, 035 Г 0, 013    
               

Решение. Найдем энтропии источников А1 и А2, используя фор­мулу (2.6).

 

 

Н(А1) = — 0, 1751og20, 175-0, 091og20, 09-...-0, 0021og20, 002 = 4, 35 (бит/символ).

Н(А2) = — 0, 21од20, 2 — 0, 1051од20, 105-...-0, 0011од20, 001 « 4, 03 (бит/символ).

По формуле (2.4) находим:

Hmax(Al) = 1од232 = 5 (бит/символ).

А2) = 1од227 « 4, 75 (бит/символ).

Избыточность источников находим по формуле (2.7):

£ > (А1) = (5 — 4, 35)/5 = 0, 13.

D{ А2) =(4, 75 — 4, 03)/4, 75 = 0, 15.

Полученные результаты позволяют сделать вывод о том, что избыточность, а следовательно, и неравномерность распределения вероятностей букв источника А2 — латинского алфавита больше, чем у источника А1 — русского алфавита.


Поделиться:



Последнее изменение этой страницы: 2017-03-14; Просмотров: 682; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.02 с.)
Главная | Случайная страница | Обратная связь