Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Приближение равной вероятности символов в тексте



Если допустить, что все символы алфавита в любом тексте появляются с одинаковой частотой, то инфор­м-ый вес всех символов будет одинаковым. Пусть N — мощность алфавита. Тогда доля любого символа в тексте составляет l/N-ю часть текста. По определению вероятности эта величина равна вероятности появления символа в каждой позиции текста: р= 1/N

Согласно формуле Шеннона, количе­ство инф-ии, кот-ое несет символ, вычис-ся так: i=log2(1\p)= log2N (бит) (2)

След-но, информационный вес символа (i) и мощность алфавита (N) связаны между собой по формуле Хартли 2i=N

Зная инф-ый вес одного символа (i) и размер текста, выраженный кол-вом символов (К), можно вычислить инф-ый объем тек­ста по формуле: I=K*i (3) Эта фор-ла есть частный вариант формулы (1), в случае, когда все символы имеют одинак-ый ин­ф-ый вес. Из фор-лы (2) следует, что при N = 2 (двоич­ный алфавит) инф-ый вес одного символа равен 1 биту. С позиции алфавитного подхода к измерению ин­формации 1 бит — это инф-ый вес сим­вола из двоичного алфавита.Более крупной единицей измерения информации является байт. 1 байт — это инф-ый вес символа из алфавита мощностью 256.Поскольку 256 = 28, то из фор-лы Хартли следу­ет связь между битом и байтом: 2i= 256 = 28 Отсюда: i= 8 бит = 1 байт. Для предст-ия текстов, хранимых и обраба­тываемых в компе, чаще всего использ-ся алфавит мощностью 256 символов. Тогда 1 символ такого текста " весит" 1 байт. Помимо бита и байта, для измерения инф-ии применяются и более крупные единицы: 1 Кб = 210 байт = 1024 байта, 1 Мб = 210 Кб = 1024 Кб, 1 Гб = 210 Мб = 1024 Мб.

Приближение разной вероятности встречаемости символов в тексте В этом приближении учит-ся, что в реаль­ном тексте разные символы встречаются с разной частотой. Отсюда следует, что вероятности появле­ния разных символов в определенной позиции тек­ста различны и различаются их ин­ф-ые веса.

Статистический анализ русских текстов показыва­ет, что частота появления буквы " о" составляет 0, 09. Это значит, что на каждые 100 символов буква " о" в среднем встречается 9 раз. Это же число обозначает вероятность появления буквы " о" в определенной позиции текста: ро = 0, 09. Отсюда следует, что инф-ый вес буквы " о" в русском тексте равен: io = log2(l/0, 09) = log2(100/9) = log2(ll, 11111) = 3, 47393 бита. Самой редкой в текстах буквой является буква " ф". Ее частота равна 0, 002. Отсюда: iф = log2(l/0, 002) = =log2(1000/2) = log2(500) = 8, 96578 бит. Отсюда следует качественный вывод: инф-ый вес редких букв больше, чем вес часто встре­чающихся букв.

Как же вычислить инф-ый объем тек­ста с учетом разных инф-ых весов симво­лов алфавита? Делается это по формуле: I=Snjij= n1i1+ n2i2+…+ nnin (4) Здесь N - размер (мощность) алфавита; nj - число повторений символа номер j в тексте; ij- информационный вес символа номер j.

Содержательный подход Использ. для измерения кол-ва инф-ии в сообщении, получаемом человеком. Рассм. следующая ситуация: 1.чел-к получает сообщ-ие о некотором со­бытии; при этом заранее известна неопределенность знания человека об ожидаемом событии. Неопред-сть знания может быть выражена либо чис­лом возможных вариантов события, либо вероятно­стью ожидаемых вариантов события; 2.в результате получения сообщения неопред-сть знания снимается: из некот-го возмож­ного кол-ва вариантов оказался выбранным один; 3.по фор-ле вычисляется кол-во инф-ии в полученном сообщении, выраженное в битах.

Фор-ла, используемая для вычисления кол-ва инф-ии, зависит от ситуаций, кот-ых мо­жет быть две: 1.Все возможные варианты события равноверо­ятны. Их число конечно и равно N. 2.Вероятности (p) возможных вариантов собы­тия разные и они заранее известны: {p}, i = 1..N. Здесь по-прежнему N - число воз­можных вариантов события.

Равновероятные события. Если обозн-ть бук­вой i количество информации в сообщении о том, что произошло одно из N равновероятных событий, то величины i и N связаны между собой формулой Хартли: 2i=N (5)

Величина i измеряется в битах. Отсюда вывод: 1 бит - это кол-во инф-ии в сообще­нии об одном из двух равновероятных событий. Формула Хартли - это показательное уравнение. Если i - неизвестная величина, то решением урав­нения (5) будет: i =log2N (6) Формулы (5) и (6) тождественны друг другу. Иногда (6) называют формулой Хартли.

Пример 1. Сколько информации содержит сооб­щение о том, что из колоды карт достали даму пик? В колоде 32 карты. В перемешанной колоде вы­падение любой карты - равновероятные события. Если i — количество информации в сообщении о том, что выпала конкретная карта (например, дама пик), то из ур-ия Хартли: 2i = 32 = 25 Отсюда: i=5 бит.

Неравновероятные события Если вероятность некот-го события равна р, а i (бит) — это кол-во инф-ии в сообще­нии о том, что произошло это событие, то данные величины связаны между собой формулой: 2i =1/р (7) Решая показат-ое уравнение (7) относитель­но i, получаем: i = log2(l/p) (8) фор-ла Шеннона

Кодирование инф-ии Информация - продукт взаимод-ия данных и адекватных им методов. Данные-диалектическая составная часть инф-ии, представляют собой зарегистрированные сигналы. Для автоматизации работы с данными очень важно унифицировать их форму представления - для этого обычно использ-ся приём кодирования, т.е. выражение данных одного типа через данные другого типа. В вычисл-ой технике сущ. система кодирования, кот. наз. двоичным кодированием и основана на представлении данных последов-ю всего двух знаков: 0 и 1.Эти знаки называют двоичными цифрами (бит).Одним битом м.б.выражены два понятия: 0 или 1(да или нет, чёрное или белое, истина или ложь…).Если кол-во битов увеличить до 2-х, то уже м.выразить четыре различ. понятия: 00, 01, 10, 11.Увеличивая на единицу кол-во разрядов в системе двоичного кодирования, мы увеличиваем в 2 раза кол-во значений, кот.м.б.выражено в данной системе: N =2m, N-кол-во независимых кодируемых значений, m-разрядность двоичного кодирования, принятая в данной системе. Целые числа кодируются двоичным кодом так: берём целое число и делим его пополам до тех пор, пока частное не б.=1.Совок-ть остатков от каждого деления, записанная справа налево вместе с последним частным, и образует двоичный аналог десятичного числа.19: 2=9+1, 9: 2=4+1, 4: 2=2+0, 2: 2=1+0.Т.о. 1910=100112. Для кодирования действ-ных чисел используют 80-разрядное кодирование, при этом число сначала преобразуют в нормализованную форму: 3, 1415926= =0, 31415926*101, 300 000=0, 3*106. Первая часть наз. мантиссой, а вторая-характеристикой. Большую часть из 80 бит отводят для хранения мантиссы (вместе со знаком) и нек. фиксированное кол-во разрядов отводят для хр-я хар-ки(со знаком).Если каждому символу алфавта сопоставить опред.целое число, то с помощью двоичного кода можно кодировать и текстовую инф-ю. Такая система, основ-ая на 16-разрядном кодировании символов, получила назв. универсальной-UNICODE. Шеснадцать разрядов позволяют обеспечить уникальные коды для 65 536 различных символов. Для кодирования цветных графич. изображ. применяется принцип декомпозиции произвольного цвета на основные составляющие. RGB(красный, зелёный, синий), MYK(голубой, пурпурный, жёлтый, чёрный), HSB(оттенок цвета, насыщенность, яркость). Кодирование звука: метод FM основан на том, что теоретически любой сложный звук м.разложить на послед-ть простейших гармонич. сигналов разных частот, каждый из кот. представл-ет собой прав-ю синусоиду, значит м.б.описан числовыми параметрами, т.е.кодом. Метод таблично-волнового синтеза: где-то в заранее подготовленных таблицах хранятся образцы звуков для мн-ва различ. муз-х инср-в (сэмплы). Числовые коды выражают тип инстр-та, номер его модели, высоту тона, продолжит-ть и интенс-ть звука, динамику его изменения, нек.параметры среды, прочие параметры, характ-щие особ-ти звука.

Представление изображений. Все известные форматы представления изображений можно разделить на растр и вект. В вект формате изображение разделяется на примитивы - прямые линии, многоугольники, окружности и т. д. Для пересекающихся примитивов задается порядок, в котором один из них перекрывает другой. Координаты примитивов бывают как двух-, так и трехмерными. Двухмерные вект форматы очень хороши для-представления чертежей, диаграмм, шрифтов и отформатир-ых текстов. Такие изображения удобно редактировать - изображения и их отдельные элементы легко поддаются масштабированию и другим преобразованиям. Примеры двухмерных векторных форматов - PDF (Portable Document Format), WMF (Windows MetaFile), PCL (Printer Control Language, система команд принтеров, поддерживаемая большинством современных лазерных и струйных печатающих устройств).

В растр формате изображение разбивается на прямоуг-ую матрицу эл-ов, называемых пикселами. Матрица называется растром. Для каждого пиксела определяется его яркость и цвет. Размер матрицы наз-ся разрешением растр-го изображения. Для печатающих устройств обычно задается неполный размер матрицы, соответствующей всему печатному листу, а кол-во пикселов, приходящихся на вертик или гориз отрезок длиной 1 дюйм; соответствующая единица так и называется - точки на дюйм (DPI, Dots Per Inch).

2-ым параметром растрового изображения является разрядность одного пиксела, которую называют цветовой глубиной. Для черно-белых изображений достаточно одного бита на пиксел, для градаций яркости серого или цветовых составляющих изображения необходимо несколько битов. В цветных изображениях пиксел разбивается на три или четыре составляющие, соответствующие разным цветам спектра. В промежуточных данных, используемых при оцифровке и редактировании растровых изображений, цветовая глубина достигает 48 или 64 бит (16 бит на цветовую составляющую). Наиболее широко используемые цветовые модели - это RGB, CMYK. В различных графич форматах исп-ся разный способ хранения пикселов. 2 осн подхода - хранить числа, соответствующие пикселам, одно за другим, или разбивать изображение на битовые плоскости - сначала хранятся младшие биты всех пикселов, потом - вторые и т.д. Обычно растр изображение снабжается заголовком, в котором указано его разрешение, глубина пиксела и, нередко, используемая цветовая модель.

Представление видео. Фильм, с точки зрения информатики, - это сочетание звуковой и графич информации. Для создания на экране эффекта движения используется технология быстрой смены статических картинок. Если за 1 сек смен-ся более 10-12 кадров, то человеческий глаз воспринимает изменения на них как непрерывные. При использовании традиционных методов сохранения информации электронная версия фильма получится слишком большой. Усовершенствование состоит в том, чтобы первый кадр запомнить целиком (ключевой), а в следующих сохранять лишь отличия от начального кадра (разностные кадры).

Существует множество различных форматов представления видеоданных. Суть AVI файлов состоит в хранении структур произвольных мультимедийных данных, каждая из которых имеет простой вид. Файл как таковой представляет собой единый блок, причем в него, м\б вложены новые блоки.

Формат Quick Time позволяет хранить независимые фрагменты данных, причем даже не имеющие общей временной синхронизации, как этого требует AVI. В рез-те в одном файле может, напр, храниться песня, текст с ее словами, нотная запись в MIDI-формате, способная управлять синтезатором, и т.п. Все большее распространение в последнее время получают системы сжатия видеоизобр-ий, допускающие некоторые незаметные для глаза искажения изображения с целью повышения степени сжатия. Наиболее известным стандартом подобного класса служит MPEG (Motion Picture Expert Group). Обрабатываемый сигнал из RGB-представления с равноправными компонентами преобразуется в яркость и две " координаты" цветности, производится спец матем-ие преобразования, ликвидируется сильная избыточность информации.


Поделиться:



Популярное:

  1. V. Найдите в тексте эквиваленты к следующим терминам
  2. А что произойдет с наибольшей долей вероятности?
  3. В каких из ниже приведённых ниже предложений верно передана ГЛАВНАЯ информация, содержащаяся в тексте?
  4. В каких из приведённых ниже предложений верно передана главная информация, содержащаяся в тексте?
  5. В контексте деятельностного подхода
  6. В тексте работы, а затем перенесите в БЛАНК ОТВЕТОВ № 1 справа от
  7. Вычисление статистической вероятности
  8. Генезис арт-терапевтического процесса в контексте теории синергетики
  9. Диагностика вероятности банкротства организации.
  10. Если в основном тексте пишутся сначала инициалы, а затем фамилия автора, то в тексте ссылок наоборот - сначала фамилия, а затем его инициалы.
  11. Женщина-мигрант в контексте российских политик: эмансипация или дискриминация?
  12. И других дополнительных символов. Каждую букву или цифру пишите


Последнее изменение этой страницы: 2016-05-03; Просмотров: 1006; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.015 с.)
Главная | Случайная страница | Обратная связь