Меры информации синтаксического уровня

⇐ ПредыдущаяСтр 6 из 6

Количественная оценка информации этого уровня не связана с содержательной стороной информации, а оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. В связи с этим данная мера дает возможность оценки информационных потоков в таких разных по своей природе объектах, как системы связи, вычислительные машины, системы управления, нервная система живого организма и т. п.

Для измерения информации на синтаксическом уровне вводятся два параметра: объем информации (данных) — V_g (объемный подход) и количество информации — I (энтропийный подход).

Объем информации V_g (объемный подход). При реализации информационных процессов информация передается в виде сообщения, представляющего собой совокупность символов какого-либо алфавита. При этом каждый новый символ в сообщении увеличивает количество информации, представленной последовательностью символов данного алфавита. Если теперь количество информации, содержащейся в сообщении из одного символа, принять за единицу, то объем информации (данных) V_g в любом другом сообщении будет равен количеству символов (разрядов) в этом сообщении. Так как одна и та же информация может быть представлена многими разными способами (с использованием разных алфавитов), то и единица измерения информации (данных) соответственно будет меняться.

Так, в десятичной системе счисления один разряд имеет вес, равный 10, и соответственно единицей измерения информации будет дит (десятичный разряд). В этом случае сообщение в виде п- разрядного числа имеет объем данных V_g — n дит. Например, четырехразрядное число 2003 имеет объем данных V_g = 4 дит.

В двоичной системе счисления один разряд имеет вес, равный 2, и соответственно единицей измерения информации будет — бит (bit — binary digit — двоичный разряд). В этом случае сообщение в виде n-разрядного числа имеет объем данных V = п бит. Например, восьмиразрядный двоичный код 11001011 имеет объем данных V = 8 бит.

⁹

В современной вычислительной технике наряду с минимальнои единицей измерения данных «бит» широко используется укрупненная единица измерения «байт», равная 8 бит. При работе с большими объемами информации для подсчета ее количества применяют более крупные единицы измерения, такие как килобайт (Кбайт), мегабайт (Мбайт), гигабайт (Гбайт), терабайт (Тбайт):

1 Кбайт = 1024 байт = 2¹⁰ байт;

1 Мбайт = 1024 Кбайт = 2²⁰ байт = 1 048 576 байт;

1 Гбайт = 1024 Мбайт = 2³⁰ байт = 1 073 741 824 байт;

1 Тбайт = 1024 Гбайт = 2⁴⁰ байт = 1 099 511 627 776 байт.

Следует обратить внимание, что в системе измерения двоичной (компьютерной) информации, в отличие от метрической системы, единицы с приставками «кило», «мега» и т. д. получаются путем умножения основной единицы не на 10³= 1000, 10⁶= 1000 000 ит. д., а на 2^Ш= 1024, 2²⁰= 1048576 и т. д.

Количество информации I (энтропийный подход). В теории информации и кодирования принят энтропийный подход к измерению информации. Этот подход основан на том, что факт получения информации всегда связан с уменьшением разнообразия или неопределенности (энтропии) системы. Исходя из этого количество информации в сообщении определяется как мера уменьшения неопределенности состояния данной системы после получения сообщения. Неопределенность может быть интерпретирована в смысле того, насколько мало известно наблюдателю о данной системе. Как только наблюдатель выявил что-нибудь в физической системе, энтропия системы снизилась, так как для наблюдателя система стала более упорядоченной.

Таким образом, при энтропийном подходе под информацией понимается количественная величина исчезнувшей в ходе како- го-либо процесса (испытания, измерения и т. д.) неопределенности. При этом в качестве меры неопределенности вводится энтропия Н, а количество информации равно:

I = H —Н, (1)

арг aps' V * I

где Н_арг — априорная энтропия о состоянии исследуемой системы или процесса.

Н_ар$— апостериорная энтропия.

Апостериори (от лат. a posteriori — из последующего) — происходящее из опыта (испытания, измерения).

Априори — (от лат. a priori — из предшествующего) — понятие, характеризующее знание, предшествующее опыту (испытанию), и независимое от него.

В случае когда в ходе испытания имевшаяся неопределенность снята (получен конкретный результат, т. е. H_aps = 0), количество полученной информации совпадает с первоначальной энтропией I — Н.

арг

Рассмотрим в качестве исследуемой системы дискретный источник информации (источник дискретных сообщений), под которым будем понимать физическую систему, имеющую конечное

множество возможных состояний {д₍.}, i = \, т.

Все множество Л = { а,, а₂, ..., а_т} состояний системы в теории информации называют абстрактным алфавитом, или алфавитом источника сообщений.

Отдельные состояния а,, а^..., а_т называют буквами или символами алфавита.

Такая система может в каждый момент времени случайным образом принять одно из конечных множеств возможных состояний — а.. При этом говорят, что различные состояния реализуются вследствие выбора их источником.

Поскольку одни состояния выбираются источником чаще, а другие реже, то в общем случае он характеризуется ансамблем А, т. е. полной совокупностью состояний с вероятностями их появления, составляющими в сумме единицу:

[1] А-210

Американский ученый К. Шеннон обобщил понятие меры неопределенности выбора Н на случай, когда Н зависит не только от числа состояний, но и от вероятностей этих состояний (вероятностей р₍ выбора символов а. алфавита А). Эту меру, представляющую собой неопределенность, приходящуюся в среднем на одно состояние, называют энтропией дискретного источника информации.

# = -! />, log р,. (2.5)

1=1

Если снова ориентироваться на измерение неопределенности в двоичных единицах, то основание логарифма следует принять равным двум.

Н = -1р, ]og₂p_r (2.6)

/=1

При равновероятных выборах все p=l/N и формула (2.6) преобразуется в формулу Р. Хартли (2.3):

N 111

н = -ъ Pi log Pi =-N —log — = -N —(log 1 - log N) = log₂ N.

i=i ² N ² N N ^{2 2}

Предложенная мера была названа энтропией не случайно. Дело в том, что формальная структура выражения (2.5) совпадает с энтропией физической системы, определенной ранее Больцманом. Согласно второму закону термодинамики энтропия Н замкнутого

¹ v ^т<

пространства определяется выражением: Н - - ^ ^m/'ⁿ, где

^МП ' ^мп

М_п — число молекул в данном пространстве; т. — число молекул, обладающих скоростью v. + A v. Так как т./М_п есть вероятность того, что молекула имеет скорость v.+Av, то Н можно записать

как Я = -X р№р_г Данная формула полностью совпадает с (2.5) — /=1

в обоих случаях величина Я характеризует степень разнообразия системы.

Используя формулы (2.4) и (2.6), можно определить избыточность D алфавита источника сообщений — А, которая показывает, насколько рационально применяются символы данного алфавита:

^D = -H(A)]/[H_mJA)]_r (2.7)

где Н_тйх(А) — максимально возможная энтропия, определяемая по формуле (2.4);

Н(А) — энтропия источника, определяемая по формуле (2.6).

Суть данной меры заключается в том, что при равновероятном выборе ту же информационную нагрузку на знак можно обеспечить, используя алфавит меньшего объема, чем в случае с неравновероятным выбором.

Пример. Согласно экспериментальным данным безусловные вероятности букв русского и английского алфавитов характеризуются табл. 2.1 и 2.2 соответственно.

Требуется найти энтропии источников А1 и А2, выдающих текст из букв русского и английского алфавитов соответственно, при отсутствии статистических связей между буквами, а также вычислить избыточность источников, выдающих тексты, обусловленную неравновероятностью выбора букв.

Талица 2.1 Таблица 2.2

Буква	Вероятность	Буква	Вероятность	Буква	Вероятность
Пробел	0, 2	Н	0, 047	W	0, 012
Е	0, 105	D	0, 035	G	0, 011
т	0, 072	L	0, 028	В	0, 010
О	0, 065	С	0, 023	V	0, 008
F	0, 063	F	0, 023	К	0, 003
N	0, 058	и	0, 023	X	0, 001
I	0, 055	М	0, 021	J	0, 001
R	0.052	Р	0, 018	Q	0, 001
S	0, 052	Y	0, 012	z	0, 001
Буква	Вероятность	Буква	Вероятность	Буква	Вероятность
Пробел	0, 175	К	0, 028	Ч	0.012
	0, 090	М	0, 026	И	0, 010
Е	0, 072	Д	0, 025	X	0, 009
А	0, 062	п	0.023	ж	0, 007
И	0, 062	У	0, 021	ю	0, 006
т	0, 053	я	0, 018	ш	0, 006
Н	0, 053	ы	0, 016	ц	0, 004
С	0, 045		0, 016	щ	0, 003
Р	0, 040	ь, ъ	0, 014	э	0, 002
В	0, 038	Б	0, 014	ф	0, 002
Л	0, 035	Г	0, 013

Решение. Найдем энтропии источников А1 и А2, используя формулу (2.6).

Н(А1) = — 0, 1751og₂0, 175-0, 091og₂0, 09-...-0, 0021og₂0, 002 = 4, 35 (бит/символ).

Н(А2) = — 0, 21од₂0, 2 — 0, 1051од₂0, 105-...-0, 0011од₂0, 001 « 4, 03 (бит/символ).

По формуле (2.4) находим:

H_max(Al) = 1од₂32 = 5 (бит/символ).

А2) = 1од₂27 « 4, 75 (бит/символ).

Избыточность источников находим по формуле (2.7):

£ > (А1) = (5 — 4, 35)/5 = 0, 13.

D{ А2) =(4, 75 — 4, 03)/4, 75 = 0, 15.

Полученные результаты позволяют сделать вывод о том, что избыточность, а следовательно, и неравномерность распределения вероятностей букв источника А2 — латинского алфавита больше, чем у источника А1 — русского алфавита.

⇐ Предыдущая 1 2 3 4 56

Последнее изменение этой страницы: 2017-03-14; Просмотров: 682; Нарушение авторского права страницы