Классификация мер информации

Для измерения информации вводятся два параметра: количество информации I и объем данных V_д

Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 1.4).

Рис. 1.4. Меры информации

Синтаксическая мера информации. Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.

Объем данных V_д , в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

1) в двоичной системе счисления единица измерения – бит (bit – binary digit – двоичный разряд). Бит - это ответ на один двоичный вопрос («да» или «нет»; «О» или «1»), передаваемый по каналам связи с помощью сигнала. Таким образом, содержащееся в сообщении количество информации в битах определяется количеством двоичных слов естественного языка, количеством знаков в каждом слове, количеством двоичных сигналов, необходимых для выражения каждого знака.

Бит – слишком мелкая единица измерения. На практике чаще применяется более крупная единица – байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=2⁸).

Широко используются также ещё более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт

1 Мегабайт (Мбайт) = 1024 Кбайт

1 Гигабайт (Гбайт) = 1024 Мбайт

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

/ Терабайт (Гбайт) = 1024 Гбайт

1 Петабайт (Пбайт) = 1024 Тбайт

2) за единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.

Количество информацииI на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы, т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы. Рассмотрим это понятие.

Так, американский инженер Р. Хартли (1928 г.) процесс получения информации рассматривает как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации /, содержащееся в выбранном сообщении, определяет как двоичный логарифм N. Расчетная формула Хартли имеет вид:

I = log₂N или 2^I = N.

Если N= 2 (выбор из двух возможностей), то I = 1 бит.

Иногда формула Хартли записывается иначе. Так как наступление каждого из N возможных событий имеет одинаковую вероятность р = I/N, то N = 1/р и формула имеет вид

I=iog₂(1/p)=-log₂p.

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: / = Iog₂100 = 6, 644. То есть сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6, 644 единиц информации.

Приведем другие примеры равновероятных сообщений: при бросании монеты: «выпала решка», «выпал орел»; на странице книги: «количество букв чётное», «количество букв нечётное».

Определим теперь, являются ли равновероятными сообщения «первой выйдет из дверей здания женщина» и «первым выйдет из дверей здания мужчина». Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона выглядит следующим образом:

I=-(p₁ Iog₂ p₁ +p₂ Iog₂p₂ +... +p_Nlog₂p_N),

где p_i – вероятность того, что именно i-e сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p₁, ..., p_N равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.

Рассмотрим следующую ситуацию. Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. Мерой его неосведомленности о системе является функция Н(α ), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения β получатель приобрел некоторую дополнительную информацию I_β(α ), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения β ) неопределенность состояния системы стала H_β(α ).

Тогда количество информации I_β(α )о системе, полученной в сообщении β, определится как:

I_β(α ) = H(α ) - H_β(α )

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Если конечная неопределенность H_β(α )обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации I_β(α ) = H(α ). Иными словами, энтропия системы H(α )может рассматриваться как мера недостающей информации.

Энтропия системы H(α ), имеющая N возможных состояний, согласно формуле Шеннона, равна:

где Pi – вероятность того, что система находится в i-м состоянии.

Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны Pi = 1/N, ее энтропия определяется соотношением

Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения

N=mⁿ

где N–число всевозможных отображаемых состояний;

т – основание системы счисления (разнообразие символов, применяемых в алфавите);

п – число разрядов (символов) в сообщении.

Пример. По каналу связи передается п-разрядное сообщение, использующее т различных символов. Так как'количество всевозможных кодовых комбинаций будет N = тⁿ , то при равновероятности появления любой из них, количество информации, приобретенной абонентом в результате получения сообщения, будет I= log N = n log т – формула Хартли. Если в качестве основания логарифма принять т, то I=n . В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I = V_д, полученных по каналу связи. Для неравновероятных состояний системы всегда I < V_д =n.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

Y= I/V_д, причем 0 < Y < 1

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных) в системе, поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.

Семантическая мера информации. Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя.

Предыдущая 1 234 5 6 7 8 9 10 11 12 13 14 15 16 Следующая