Приближение равной вероятности символов в тексте

⇐ ПредыдущаяСтр 11 из 17Следующая ⇒

Если допустить, что все символы алфавита в любом тексте появляются с одинаковой частотой, то информ-ый вес всех символов будет одинаковым. Пусть N — мощность алфавита. Тогда доля любого символа в тексте составляет l/N-ю часть текста. По определению вероятности эта величина равна вероятности появления символа в каждой позиции текста: р= 1/N

Согласно формуле Шеннона, количество инф-ии, кот-ое несет символ, вычис-ся так: i=log₂(1\p)= log₂N (бит) (2)

След-но, информационный вес символа (i) и мощность алфавита (N) связаны между собой по формуле Хартли 2ⁱ=N

Зная инф-ый вес одного символа (i) и размер текста, выраженный кол-вом символов (К), можно вычислить инф-ый объем текста по формуле: I=K*i (3) Эта фор-ла есть частный вариант формулы (1), в случае, когда все символы имеют одинак-ый инф-ый вес. Из фор-лы (2) следует, что при N = 2 (двоичный алфавит) инф-ый вес одного символа равен 1 биту. С позиции алфавитного подхода к измерению информации 1 бит — это инф-ый вес символа из двоичного алфавита.Более крупной единицей измерения информации является байт. 1 байт — это инф-ый вес символа из алфавита мощностью 256.Поскольку 256 = 2⁸, то из фор-лы Хартли следует связь между битом и байтом: 2ⁱ= 256 = 2⁸ Отсюда: i= 8 бит = 1 байт. Для предст-ия текстов, хранимых и обрабатываемых в компе, чаще всего использ-ся алфавит мощностью 256 символов. Тогда 1 символ такого текста " весит" 1 байт. Помимо бита и байта, для измерения инф-ии применяются и более крупные единицы: 1 Кб = 2¹⁰ байт = 1024 байта, 1 Мб = 2¹⁰ Кб = 1024 Кб, 1 Гб = 2¹⁰ Мб = 1024 Мб.

Приближение разной вероятности встречаемости символов в тексте В этом приближении учит-ся, что в реальном тексте разные символы встречаются с разной частотой. Отсюда следует, что вероятности появления разных символов в определенной позиции текста различны и различаются их инф-ые веса.

Статистический анализ русских текстов показывает, что частота появления буквы " о" составляет 0, 09. Это значит, что на каждые 100 символов буква " о" в среднем встречается 9 раз. Это же число обозначает вероятность появления буквы " о" в определенной позиции текста: р_о = 0, 09. Отсюда следует, что инф-ый вес буквы " о" в русском тексте равен: i_o = log₂(l/0, 09) = log₂(100/9) = log₂(ll, 11111) = 3, 47393 бита. Самой редкой в текстах буквой является буква " ф". Ее частота равна 0, 002. Отсюда: i_ф = log₂(l/0, 002) = =log₂(1000/2) = log₂(500) = 8, 96578 бит. Отсюда следует качественный вывод: инф-ый вес редких букв больше, чем вес часто встречающихся букв.

Как же вычислить инф-ый объем текста с учетом разных инф-ых весов символов алфавита? Делается это по формуле: I=Sn_ji_j= n₁i₁+ n₂i₂+…+ n_ni_n (4) Здесь N - размер (мощность) алфавита; n_j - число повторений символа номер j в тексте; i_j- информационный вес символа номер j.

Содержательный подход Использ. для измерения кол-ва инф-ии в сообщении, получаемом человеком. Рассм. следующая ситуация: 1.чел-к получает сообщ-ие о некотором событии; при этом заранее известна неопределенность знания человека об ожидаемом событии. Неопред-сть знания может быть выражена либо числом возможных вариантов события, либо вероятностью ожидаемых вариантов события; 2.в результате получения сообщения неопред-сть знания снимается: из некот-го возможного кол-ва вариантов оказался выбранным один; 3.по фор-ле вычисляется кол-во инф-ии в полученном сообщении, выраженное в битах.

Фор-ла, используемая для вычисления кол-ва инф-ии, зависит от ситуаций, кот-ых может быть две: 1.Все возможные варианты события равновероятны. Их число конечно и равно N. 2.Вероятности (p) возможных вариантов события разные и они заранее известны: {p}, i = 1..N. Здесь по-прежнему N - число возможных вариантов события.

Равновероятные события. Если обозн-ть буквой i количество информации в сообщении о том, что произошло одно из N равновероятных событий, то величины i и N связаны между собой формулой Хартли: 2ⁱ=N (5)

Величина i измеряется в битах. Отсюда вывод: 1 бит - это кол-во инф-ии в сообщении об одном из двух равновероятных событий. Формула Хартли - это показательное уравнение. Если i - неизвестная величина, то решением уравнения (5) будет: i =log₂N (6) Формулы (5) и (6) тождественны друг другу. Иногда (6) называют формулой Хартли.

Пример 1. Сколько информации содержит сообщение о том, что из колоды карт достали даму пик? В колоде 32 карты. В перемешанной колоде выпадение любой карты - равновероятные события. Если i — количество информации в сообщении о том, что выпала конкретная карта (например, дама пик), то из ур-ия Хартли: 2ⁱ = 32 = 2⁵ Отсюда: i=5 бит.

Неравновероятные события Если вероятность некот-го события равна р, а i (бит) — это кол-во инф-ии в сообщении о том, что произошло это событие, то данные величины связаны между собой формулой: 2ⁱ=1/р (7) Решая показат-ое уравнение (7) относительно i, получаем: i = log₂(l/p) (8) фор-ла Шеннона

Кодирование инф-ии Информация - продукт взаимод-ия данных и адекватных им методов. Данные-диалектическая составная часть инф-ии, представляют собой зарегистрированные сигналы. Для автоматизации работы с данными очень важно унифицировать их форму представления - для этого обычно использ-ся приём кодирования, т.е. выражение данных одного типа через данные другого типа. В вычисл-ой технике сущ. система кодирования, кот. наз. двоичным кодированием и основана на представлении данных последов-ю всего двух знаков: 0 и 1.Эти знаки называют двоичными цифрами (бит).Одним битом м.б.выражены два понятия: 0 или 1(да или нет, чёрное или белое, истина или ложь…).Если кол-во битов увеличить до 2-х, то уже м.выразить четыре различ. понятия: 00, 01, 10, 11.Увеличивая на единицу кол-во разрядов в системе двоичного кодирования, мы увеличиваем в 2 раза кол-во значений, кот.м.б.выражено в данной системе: N =2^m, N-кол-во независимых кодируемых значений, m-разрядность двоичного кодирования, принятая в данной системе. Целые числа кодируются двоичным кодом так: берём целое число и делим его пополам до тех пор, пока частное не б.=1.Совок-ть остатков от каждого деления, записанная справа налево вместе с последним частным, и образует двоичный аналог десятичного числа.19: 2=9+1, 9: 2=4+1, 4: 2=2+0, 2: 2=1+0.Т.о. 19₁₀=10011₂. Для кодирования действ-ных чисел используют 80-разрядное кодирование, при этом число сначала преобразуют в нормализованную форму: 3, 1415926= =0, 31415926*10¹, 300 000=0, 3*10⁶. Первая часть наз. мантиссой, а вторая-характеристикой. Большую часть из 80 бит отводят для хранения мантиссы (вместе со знаком) и нек. фиксированное кол-во разрядов отводят для хр-я хар-ки(со знаком).Если каждому символу алфавта сопоставить опред.целое число, то с помощью двоичного кода можно кодировать и текстовую инф-ю. Такая система, основ-ая на 16-разрядном кодировании символов, получила назв. универсальной-UNICODE. Шеснадцать разрядов позволяют обеспечить уникальные коды для 65 536 различных символов. Для кодирования цветных графич. изображ. применяется принцип декомпозиции произвольного цвета на основные составляющие. RGB(красный, зелёный, синий), MYK(голубой, пурпурный, жёлтый, чёрный), HSB(оттенок цвета, насыщенность, яркость). Кодирование звука: метод FM основан на том, что теоретически любой сложный звук м.разложить на послед-ть простейших гармонич. сигналов разных частот, каждый из кот. представл-ет собой прав-ю синусоиду, значит м.б.описан числовыми параметрами, т.е.кодом. Метод таблично-волнового синтеза: где-то в заранее подготовленных таблицах хранятся образцы звуков для мн-ва различ. муз-х инср-в (сэмплы). Числовые коды выражают тип инстр-та, номер его модели, высоту тона, продолжит-ть и интенс-ть звука, динамику его изменения, нек.параметры среды, прочие параметры, характ-щие особ-ти звука.

Представление изображений. Все известные форматы представления изображений можно разделить на растр и вект. В вект формате изображение разделяется на примитивы - прямые линии, многоугольники, окружности и т. д. Для пересекающихся примитивов задается порядок, в котором один из них перекрывает другой. Координаты примитивов бывают как двух-, так и трехмерными. Двухмерные вект форматы очень хороши для-представления чертежей, диаграмм, шрифтов и отформатир-ых текстов. Такие изображения удобно редактировать - изображения и их отдельные элементы легко поддаются масштабированию и другим преобразованиям. Примеры двухмерных векторных форматов - PDF (Portable Document Format), WMF (Windows MetaFile), PCL (Printer Control Language, система команд принтеров, поддерживаемая большинством современных лазерных и струйных печатающих устройств).

В растр формате изображение разбивается на прямоуг-ую матрицу эл-ов, называемых пикселами. Матрица называется растром. Для каждого пиксела определяется его яркость и цвет. Размер матрицы наз-ся разрешением растр-го изображения. Для печатающих устройств обычно задается неполный размер матрицы, соответствующей всему печатному листу, а кол-во пикселов, приходящихся на вертик или гориз отрезок длиной 1 дюйм; соответствующая единица так и называется - точки на дюйм (DPI, Dots Per Inch).

2-ым параметром растрового изображения является разрядность одного пиксела, которую называют цветовой глубиной. Для черно-белых изображений достаточно одного бита на пиксел, для градаций яркости серого или цветовых составляющих изображения необходимо несколько битов. В цветных изображениях пиксел разбивается на три или четыре составляющие, соответствующие разным цветам спектра. В промежуточных данных, используемых при оцифровке и редактировании растровых изображений, цветовая глубина достигает 48 или 64 бит (16 бит на цветовую составляющую). Наиболее широко используемые цветовые модели - это RGB, CMYK. В различных графич форматах исп-ся разный способ хранения пикселов. 2 осн подхода - хранить числа, соответствующие пикселам, одно за другим, или разбивать изображение на битовые плоскости - сначала хранятся младшие биты всех пикселов, потом - вторые и т.д. Обычно растр изображение снабжается заголовком, в котором указано его разрешение, глубина пиксела и, нередко, используемая цветовая модель.

Представление видео. Фильм, с точки зрения информатики, - это сочетание звуковой и графич информации. Для создания на экране эффекта движения используется технология быстрой смены статических картинок. Если за 1 сек смен-ся более 10-12 кадров, то человеческий глаз воспринимает изменения на них как непрерывные. При использовании традиционных методов сохранения информации электронная версия фильма получится слишком большой. Усовершенствование состоит в том, чтобы первый кадр запомнить целиком (ключевой), а в следующих сохранять лишь отличия от начального кадра (разностные кадры).

Существует множество различных форматов представления видеоданных. Суть AVI файлов состоит в хранении структур произвольных мультимедийных данных, каждая из которых имеет простой вид. Файл как таковой представляет собой единый блок, причем в него, м\б вложены новые блоки.

Формат Quick Time позволяет хранить независимые фрагменты данных, причем даже не имеющие общей временной синхронизации, как этого требует AVI. В рез-те в одном файле может, напр, храниться песня, текст с ее словами, нотная запись в MIDI-формате, способная управлять синтезатором, и т.п. Все большее распространение в последнее время получают системы сжатия видеоизобр-ий, допускающие некоторые незаметные для глаза искажения изображения с целью повышения степени сжатия. Наиболее известным стандартом подобного класса служит MPEG (Motion Picture Expert Group). Обрабатываемый сигнал из RGB-представления с равноправными компонентами преобразуется в яркость и две " координаты" цветности, производится спец матем-ие преобразования, ликвидируется сильная избыточность информации.

⇐ Предыдущая 6 7 8 9 101112 13 14 15 Следующая ⇒