Практическое использование видеокомпрессии в телевидении

Стандарт кодирования MPEG-2

Основной целью видеокомпрессии является более компактное представление изображений с информационной точки зрения.

Вопросами сжатия информации и выпуска соответствующих стандартов и рекомендаций занимается MPEG (Motion Picture Experts Group) - созданная в 1988 г. организация, объединяющая представителей фирм и научных институтов разных стран. MPEG представляет собой подкомитет двух международных организаций - ISO (Международная организация по стандартизации) и IEC (Международная электротехническая комиссия). Одна из основных задач MPEG состояла в изучении проблемы и разработке стандарта на компрессию спектра цифрового видеосигнала, что позволило предложить способы записи и передачи изображения и звука посредством возможно меньшего числа данных с возможно лучшим качеством.

В рамках стандартизации методов цифровой компрессии и мультиплексирования сигналов телевидения, звукового сопровождения и дополнительной информации в настоящее время разработаны три международных стандарта сжатия видеоданных подвижных изображений: MPEG-1, MPEG-2 и MPEG-4. Их параметры оптимизированы.

Стандарт MPEG-2 (также известный как ISO/IEC-13818) был специально разработан для кодирования телевизионных сигналов вещательного телевидения. Он позволяет получить полную четкость декодированного телевизионного изображения, соответствующую Рекомендации МСЭ-Р ВТ.601-5. (При скорости передачи видеоданных 14 Мбит/с качество телевизионного изображения соответствует студийному, а для вещания с профессиональным качеством одной телевизионной программы необходимо передавать цифровой поток со скоростью 5...8 Мбит/с).

Пакет стандартов MPEG предусматривает возможность перехода к ТВЧ. Среди 10 составных частей стандарта MPEG-2 можно выделить три основных: 13818-1 - системную, 13818-2 - видео и 13818-3 - звуковую.

В стандарте 13818-2 определено, что стандарт MPEG-2 - это целое семейство взаимно согласованных совместимых цифровых стандартов информационного сжатия телевизионных сигналов с различной степенью сложности используемых алгоритмов. Поэтому в рамках стандарта MPEG-2 была разработана система профилей и уровней. Профиль - это подмножество стандарта для специализированного применения, задающее алгоритмы и средства компрессии. Уровни внутри каждого профиля связаны с параметрами компрессируемого изображения.

Градации качества телевизионного изображения для вещательных систем в стандарте ISO/I ЕС 13818-2 устанавливаются введением четырех уровней для формата разложения строк телевизионного изображения и пяти профилей для форматов кодирования сигналов яркости и цветности. Общая идеология построения стандарта MPEG-2 поясняется табл. 6.3 [15].

Расположенный в нижней части таблицы уровень называется «низким уровнем» и ему соответствует новый класс качества телевизионного изображения, которое вводится в стандарте MPEG-2 -телевидение ограниченной четкости. В этом случае в кадре телевизионного изображения содержится 288 активных строк (в 2 раза меньше, чем в вещательном телевидении) и каждая строка дискретизируется на 352 отсчета.

Таблица 6.3. Уровни, профили и согласованные точки стандарта MPEG-2

Уровень	Скорости передачи видеоданных, Мбит/с
Простой профиль без В кадров, формат 4: 2: 2	Основной профиль без В кадров, формат 4: 2: 0	Профиль с масштаби-руемым отно-шением C-Ш, В кадры, формат 4: 2: 0	Специальный масштабируемый профиль В кадры формат 4: 2: 0	Высший профиль, В кадры, формат 4: 2: 0 или 4: 2: 2
Высокий 1920 отсчётов 1152 строки (активных)
Высокий 1440 отсчетов 1152 строки (активных)
Основной 720 отсчетов 576 строк (активных)
Низкий 352 отсчета 288 строк (активных)

Кодирование сигналов телевидения вещательного стандарта выполняется в соответствии с основным уровнем, т.е. с форматом разложения на 576 активных строк в кадре, которые кодируются с использованием 720 отсчетов на строку.

Высокий уровень - 1440 поддерживает телевизионные изображения высокой четкости с разрешением 1440x1152 элементов.

Высокий уровень - 1920 поддерживает телевизионные изображения высокой четкости широкого формата с разрешением 1920x1152 (HDTV-plus). В обоих «высоких» уровнях кадр телевизионного изображения содержит 1152 активные строки (вдвое больше, чем в вещательном телевидении). Эти строки дискретизируются соответственно на 1440 или 1920 отсчетов.

В стандарте используются 5 профилей, которым соответствуют 5 наборов функциональных операций по обработке (компрессии) видеоданных.

Профиль, в котором используется наименьшее число функциональных операций по компрессии видеоданных, назван простым. В нем при компрессии видеоданных используется компенсация движения изображения и гибридное дискретно-косинусное преобразование (ДКП).

Следующий профиль назван основным. Он содержит все функциональные операции простого профиля и одну новую: предсказание по двум направлениям. Эта новая операция, естественно, повышает качество телевизионного изображения.

Следующий за основным назван профилем с масштабируемым отношением сигнал-шум. Термин «масштабирование», в данном случае, означает возможность обмена основных показателей системы, способность воспроизведения телевизионных изображений из части полного потока видеоданных. Этот профиль к функциональным операциям основного профиля добавляет новую - масштабирование. Основная идея - повышение устойчивости цифрового телевидения и сохранение работоспособности при неблагоприятных условиях приема. Операция масштабирования позволит в рассматриваемом случае повысить устойчивость системы за счет некоторого снижения требований к допустимому уровню отношения сигнал-шум в воспроизводимом телевизионном изображении.

При масштабировании потоки видеоданных разделяют на две части. Одна из них несет наиболее значимую часть информации - ее называют основным сигналом. Вторую часть, несущую менее значимую информацию, называют дополнительным сигналом. Декодирование только одного основного сигнала позволяет получить телевизионное изображение с пониженным отношением сигнал-шум относительно исходного значения.

И все же, что можно извлечь из идеи деления потока данных на более и менее значимые части? А все дело в защите системы от ошибок. Помехоустойчивое кодирование требует введения дополнительных бит, что повышает общий поток информации. Задача упрощается, когда более мощная защита применяется только к части информации и тем самым соблюдается разумный баланс между уровнем потока видеоданных и степенью их защиты. При неблагоприятных условиях приема (например, при низкой напряженности радиополя, при приеме на комнатную антенну и т.п.) сохраняется возможность устойчивого декодирования более защищенного основного сигнала, а неустойчиво воспринимаемый дополнительный сигнал просто отключается. Это ведет к росту уровня шума, зато система остается работоспособной.

Бывают ситуации, когда сигналы приходится передавать по каналам с ограниченной пропускной способностью. Деление потока видеоданных на два позволяет использовать и «плохие» каналы, ограничивая передачу основным сигналом.

Следующий, четвертый, профиль назван специально масштабируемым профилем. Здесь, естественно, сохранены все операции предшествующего профиля и добавлена новая - разделение потока видеоданных по критерию четкости телевизионного изображения. Этот профиль обеспечивает переходы между ныне действующими вещательными системами и ТВЧ. С этой целью видеоданные сигнала ТВЧ разделяются на три потока. Первый - это основной (значимый) поток видеоданных, например, по стандарту разложения на 625 строк. Второй поток несет дополнительную информацию об изображении с числом строк до 1250. Одновременное декодирование первого и второго потоков видеоданных позволяет получить телевизионное изображение высокой четкости, но с пониженным отношением сигнал-шум. В третьем потоке сосредоточена менее значимая информация, его декодирование позволяет повысить отношение сиг-нал-шум в видеоканале до уровня, принятого в ТВЧ. Обычно первый поток видеоданных, представляющих сигнал 625-строчного телевидения, - это 6 Мбит/с, дополняющий его до ТВЧ - 6 Мбит/с, а повышающий отношение сигнал-шум до уровня, когда шумы визуально незаметны -12 Мбит/с.

В рассмотренных четырех профилях при кодировании сигналов яркости и цветности используется формат представления видеоданных 4: 2: 0, в котором число отсчетов сигналов цветности по сравнению с сигналом яркости уменьшается в два раза не только по горизонтальным, но и по вертикальным направлениям. Следующий, пятый профиль называется высшим, и он включает в себя все функциональные операции специального профиля 4: 2: 2, при котором число отсчетов сигналов цветности в вертикальных направлениях остается тем же, что и у сигнала яркости. В этом случае коэффициент компрессии минимален, а качество изображения наивысшее.

Приведенные в табл. 6.3 пять профилей и четыре уровня образуют 20 возможных комбинаций видеосигнала, из которых, вероятнее всего, только 11 будут необходимыми. Для этих комбинаций (согласованные точки) в таблице указаны максимальные значения скорости передачи видеоданных в Мбит/с.

Для всех стандартизованных точек указаны максимальные потоки видеоданных, которые позволяют получить телевизионное изображение, свободное от каких-либо дефектов. В иных случаях они могут проявиться в процессе кодирования/декодирования видеосигнала. Используемые в конкретных кодерах потоки видеоданных могут быть меньше (в несколько раз) указанных значений. Выбор уровня компрессии и, в конечном итоге, уровня потока зависит от допустимой степени искажений телевизионного изображения.

Таким образом, стандарт MPEG-2 позволяет гибко менять скорость передачи видеоданных в очень широких пределах. Надо заметить, что системы кодирования стандарта MPEG-2 могут работать как с чересстрочной, так и с прогрессивной развертками, при частоте полей 50 или 60 Гц. Для каждой стандартизованной точки в таблице оговорено число отсчетов сигнала яркости на активной части строки. Рассмотренные комбинации параметров информационного кодирования пригодны для работы с различными цифровыми трактами.

Стандарт MPEG-2 принципиально нацелен в будущее. Большинство выпускаемых в настоящее время декодеров в интегральном исполнении относится к основному профилю и основному уровню (MP@ML), рассчитанных на телевизионное изображение с чересстрочным разложением в качестве 625 строк. Эта система принята в первого поколения цифровых телевизоров для непосредственного телевизионного вещания (НТВ) со спутников, работающих в диапазоне 11 /12 ГГц, и кабельной сети распределения.

Однако ряд особенностей основного профиля и основного уровня стандарта MPEG-2, например, низкое вертикальное разрешение в цветоразностных каналах, ограничивают его применение в условиях телевизионных студий, в видеопроизводстве. Для достижения высоких качественных показателей в случае многократного кодирования-декодирования важно кодировать видеосигналы стандарта 4: 2: 2. Использование видеосигналов, кодированных в стандарте 4: 2: 0, совместно с основным профилем и основным уровнем MP@ML означает, что вертикальное разрешение в цветоразностных каналах уменьшается вдвое. Взаимное преобразование видеосигналов стандартов 4: 2: 2 и 4: 2: 0, необходимое для обеспечения совместимости в телевизионном тракте в соответствии с Рекомендацией МСЭ-Р ВТ.601-5, требует в каждой точке преобразования вертикальные фильтры нижних частот. Хорошо известно, что каскадное включение таких фильтров быстро приведет к «смягчению», т.е. к размытию цветовых границ. Для сохранения цветового вертикального разрешения лучше осуществлять компрессию видеоданных, кодированных по стандарту 4: 2: 2. Поэтому в рамках группы MPEG-2 был разработан дополнительный стандарт 422 Profile @ Main Level (422 P@ML).

Стандарт 422 P@ML является подмножеством основного профиля и основного уровня MP@ML в том смысле, что все значения параметров первого либо равны, либо превышают соответствующие значения второго. Принцип обратной совместимости, заложенный в MPEG-2, гарантирует, что декодеры 422 P@ML способны декодировать цифровые потоки MP@ML.

Основные возможности стандарта 422 P@ML, превосходящие соответствующие свойства основного профиля и основного уровня MP@ML, заключаются в следующем:

- допускается кодирование сигнала по стандарту 4: 2: 2, в то время как MP@ML ограничен кодированием сигналов способом 4: 2: 0;

- цифровой поток кодированных видеоданных может принимать любое значение до 50 Мбит/с, а в MP@ML - только 15 Мбит/с;

- вертикальное разрешение ограничено значением 512 твл в случае 525-строчных систем и 608 твл в случае 625-строчных систем, а в MP@ML - значениями 480 и 576 телевизионных линий соответственно;

- в 625-строчных системах кроме 576 активных строк стандарт 422 P@ML обеспечивает возможность кодирования еще 32 строк в кадре как составной части видеосигнала. Это позволяет пропускать напрямую через систему цифрового сжатия важные строки полевого интервала гашения. Поэтому стандарт 422 P@ML гарантирует пропускание такой информации, как полевой временной код и сигналы испытательных строк, не требуя отдельной обработки этих строк.

После того как была сформулирована профессиональная версия MPEG-2 422 P@ML, используемая для студийного производства, он получил статус полноценного международного стандарта, который иногда называют 422 Studio Profile/ML. В результате появилась реальная возможность применения стандарта сжатия MPEG-2 на всех участках технологической цепочки создания телевизионных программ: от съемки до телезрителя, включая доставку новостийных сюжетов на телецентр, студийную компоновку программ, их распространение и передачу в эфир. Стандарт предоставляет возможности эффективной работы во всех этих звеньях. Профили MPEG-2 определяют набор способов и технических приемов по сжатию видеоданных, а уровни - такие параметры, как размер изображения, или скорость цифрового потока при выбранном способе кодирования. Профиль 422 характеризуется высокой скоростью цифрового потока и относительно короткими группами изображений, что позволяет монтировать телевизионную программу с достаточно высоким качеством.

В настоящее время активно разрабатывается стандарт MPEG-2 4: 2: 2 P@HL (профиль 4: 2: 2 на высоком уровне), нацеленный на использование в системах ТВЧ.

Для кодирования звуковых сигналов с целью их компрессии в MPEG-2 используется стандарт информационного сжатия звуковых данных MUSICAM (Masked Pattern for Adapted Universal Coding and Multiplexing), обозначаемый также как MPEG Layer II. Стандарт MUSICAM позволяет передавать моно, стерео, многоязыковый и surround (пространственный) звук.

MU3ICAM позволяет снизить скорость потока данных, необходимую для воспроизведения звуковых сигналов, адекватного качеству, получаемому при воспроизведении компакт-дисков, до 128 кбит/с на каждый моноканал звукового сопровождения. Таким образом, для самого низкого уровня - двухканального стереофонического звукового сопровождения - потребуется скорость передачи цифровых данных, равная 128 кбит/с х 2 = 256 кбит/с. В основе стандарта лежат два психоакустических эффекта. Дело в том, что человеческое ухо не способно различать звуки с громкостью ниже определенного минимума, так называемого «порога тишины». Кроме того, более тихие звуки «маскируются» более громкими. Соответственно, алгоритм MUSICAM обеспечивает передачу только тех звуков, которые реально различаются человеком.

В случае воспроизведения пространственного (surround) звука для передачи шести сигналов звукового сопровождения в отсутствие компрессии потребуется пропускная способность канала, достигаемая 5, 18 Мбит/с (48 ООО х 18 х 6 = 5, 18 Мбит/с, где 18 кГц - частота дискретизации звуковых сигналов, 18 бит - разрядность квантования). По протоколу для передачи звукового сопровождения предусмотрен канал с пропускной способностью 384 кбит/с. В данном случае требуемый коэффициент сжатия, равный 13, сможет обеспечить цифровая система компрессирования Dolby АС-3, основанная на спектральном анализе звуковых сигналов и удалении' частотных компонент, не слышимых человеком.

Компрессия видеоданных

Телевизионный сигнал, как известно, избыточен, что обусловлено значительной избыточностью изображений, типичных для телевизионного вещания. В общем случае большая часть изображения любого телевизионного кадра обычно приходится на участки; имеющие постоянную или мало меняющуюся в пространстве яр* кость, а резкие световые переходы и детали малых размеров занимают небольшую долю площади изображения. Коэффициент корреляции соседних элементов изображения, описывающий статистическую связь между яркостями этих элементов, близок к 1. Зная яркость одного элемента, можно с высокой степенью вероятности предсказать яркость соседнего, например, полагая их просто равными. Такого рода избыточность можно назвать пространственной избыточностью изображения.

Изображения соседних кадров в телевидении обычно очень похожи друг на Друга, даже при показе движущихся объектов. Переходы от сюжета к сюжету встречаются редко. Межкадровая разность на значительной части площади изображения обычно близка к нулю. Зная распределение яркости в одном кадре, можно с высокой степенью уверенности предсказать распределение яркости следующего кадра. Эта предсказуемость указывает на временную избыточность изображения.

Пространственная и временная формы избыточности связаны со статистическими свойствами телевизионных изображений.

Таким образом, в телевидении различают статистическую избыточность, избыточность по восприятию, структурную и спектральную избыточность. По теории вероятностей избыточность является следствием определенных корреляционных связей. Корреляция означает, что некоторый элемент изображения более или менее существенно зависит от соседей в пространстве и во времени. Под статистической избыточностью понимают корреляционные связи между соседними (по вертикали и горизонтали) отсчетами телевизионного сигнала. Необходимо подчеркнуть, что снижение избыточности в этом случае до определенных пределов обратимо, т.е. без потерь информации. Примером такого «беспроигрышного» кодирования служит предсказание на основе ДКП. Можно назвать и другие разностные методы.

Избыточность по восприятию связана с особенностями зрения человека. Например, цветовое разрешение нашего зрения ниже яркостного. Эта особенность учтена во всех стандартных аналоговых системах цветового кодирования. В совместимых системах вещательного телевидения NTSC, PAL и SECAM цветовое разрешение существенно понижено по отношению к яркостному. То же самое зафиксировано в цифровом стандарте 4: 2: 2, где, по определению, две цветоразностные компоненты представлены таким же по объему информационным массивом, что и один яркостный сигнал.

Учитывая эту особенность нашего зрения по восприятию мелких деталей цветного изображения, можно в несколько раз сократить полосу частот при передаче и кодировании сигналов цветности.

Структурная избыточность - итог особенностей стандарта разложения или, по иному, преобразования изображения в телевизионный сигнал. В нем, например, периодически передаются неизменные по форме элементы сигнала: гасящие импульсы строк и полей. В цифровом телевизионном сигнале нет необходимости передавать эти импульсы по каналу связи, так как они могут быть восстановлены в декодере по опорным сигналам синхронизации. В цифровом телевидении достаточно передавать только активную часть изображения. В цифровом стандарте 4: 2: 2 при 10 битах на отсчет устранение из состава цифрового телевизионного сигнала гасящих импульсов строк и полей сокращает скорость передачи данных с 270 Мбит/с до 207 Мбит/с, т.е. примерно на 23%. Естественно, эта особенность сигнала учтена в стандарте MPEG-2.

Спектральная избыточность проявляется как результат излишка высокой частоты дискретизации. В частности, принятая ортогональная структура дискретизации телевизионного изображения в общем случае не является оптимальной в частотном пространстве. Можно сократить передаваемый цифровой поток, если преобразовать используемую структуру дискретизации в другую, которая характеризуется меньшим числом отсчетов в кадре, например, от формата 4: 2: 2 перейти к формату 4: 2: 0 или 4: 2: 1. Используя интерполяцию и передискретизацию определенным образом выбранных групп отсчетов телевизионного сигнала, можно, в принципе, видоизменить спектральный состав и снизить частоту дискретизации. Такая обработка обычно необратима и, как правило, ведет к некоторому снижению качества восстановленного телевизионного изображения за счет уменьшения его разрешения. В стандарте MPEG-2 этот вид избыточности не устраняется.

Итак, в MPEG-2 применены известные, давно апробированные методы сокращения избыточности. Вместе с ними использованы и новые подходы. В особенности это относится к совокупности согласованных алгоритмов сокращения статистической избыточности. Здесь особо эффективными оказались два метода: кодирование телевизионных отсчетов с предсказанием и ДКП.

Кодирование с предсказанием реализуется с помощью дифференциальной импульсно-кодовой модуляции (ДИКМ). При кодировании с предсказанием вычисляется разность между истинным и предсказанным значением отсчета. Затем разность квантуется по уровню. От точности предсказания зависит среднее число бит, необходимых для передачи разностной информации. Предсказание может быть экстраполяционным. В этом случае (его часто называют предсказанием вперед) по предшествующим значениям отсчетов телевизионного сигнала оцениваются последующие отсчеты. Интерполяционное (двунаправленное) предсказание означает, что оценка среднего по положению отсчета телевизионного сигнала выполняется по известным значениям предшествующих и последующих отсчетов. Такое предсказание наиболее точно оценивает текущие отсчеты. Однако за точность приходится расплачиваться возросшим объемом вычислений и соответственно памяти, необходимой при реализации. При этом эффект не окупает затраты.

Как уже отмечалось, предсказание выполняется по соседним с предсказываемым отсчетам, причем под соседними надо понимать отсчеты, расположенные «до» и «за» рассматриваемым. К ним надо добавить соседей в предшествующей и последующей строках, полях и кадрах. Таким образом, возможно построчное, межстрочное, внутриполевое, внутрикадровое, межполевое, межкадровое предсказание. Это полный набор возможных направлений корреляций. Но уже подчеркивалось, что предсказание вдоль отдельной строки по предшествующему и последующему элементу не эффективно. Поэтому же критерию можно отсеять и некоторые другие возможные направления.

При простейшем внутриполевом предсказании вперед предшествующий отсчет телевизионной строки принимается как ожидаемый уровень последующего отсчета. Фактически это означает вычеркивание постоянной составляющей или, что то же самое, выделение разностной информации. Такой метод предсказания особенно эффективен, когда передаются крупные, не содержащие мелких деталей, фрагменты изображения, где яркость постоянна или изменяется медленно.

Другой способ - межкадровое предсказание вперед. В этом случае текущий отсчет оценивается по отсчету с теми же координатами, но предыдущего кадра. Это очень эффективный метод предсказания для неподвижных изображений. Ситуация усложняется, когда изображение содержит движущиеся объекты или изменяющиеся в целом. В этом случае отсчеты, принадлежащие однозначным элементам изображения, от кадра к кадру будут смещаться. Возникает разностная информация, даже если в остальном никаких изменений не происходит. Это можно ослабить, если ввести компенсацию движения. Для этого необходимо определить векторы перемещения движущихся частей изображения при последовательном переходе от кадра к кадру. Векторы движения позволяют определить положение кодируемого отсчета в новом кадре (скомпенсировать его перемещение) и, таким образом, сохранить высокую точность предсказания.

Таким образом, стандарт MPEG-2 фактически не регламентирует методы сжатия видеосигнала, а только определяет структуру битового потока кодируемого видеосигнала. Поэтому конкретно используемые алгоритмы зависят от собственных разработок фирм-производителей оборудования. При этом ярко выражены общие принципы построения стандарта MPEG-2, в соответствии с которыми процесс сжатия цифрового видеосигнала может быть разбит на ряд последовательных операций: преобразование аналогового сигнала в цифровую форму, предварительная обработка, ДКП, квантование, кодирование (рис. 6.14).

После АЦП производится предварительная обработка сигнала, которая включает в себя следующие преобразования.

1. Удаление избыточной информации. Например, если фон изображения состоит из идентичных символов (пикселей), то совершенно не обязательно их все передавать. Достаточно описать один пиксель и послать его с сообщением о том, как часто и где он повторяется в изображении.

2. Если исходное изображение передается в виде чересстрочных полей, то они преобразуются в кадры с прогрессивной разверткой.

3. Цветоделенные сигналы E_R, Е_G, Е_B преобразуются в цветоразностные сигналы U и V и сигнал яркости Y.

4. Изображение достраивается до кратного 16 количества пикселей по строкам и столбцам, чтобы обеспечить разбиение изображения на целое число макроблоков.

5. Производится преобразование стандарта цифрового представления телевизионного сигнала 4: 4: 4 в стандарт 4: 2: 2 (горизонтальная передискретизация цветоразностных компонентов) или 4: 2: 0 (горизонтальная и вертикальная передискретизации цветоразностных компонентов).

6. Изображение разбивается на последовательность макроблоков, каждый из которых, в свою очередь, состоит из нескольких блоков размером 8x8 пикселей. (Исследования проводились по разбиению на блоки размером 4x4, 8x8, 16x16 пикселей, которые показали, что разбиение 8x8 является наилучшим компромиссом между точностью преобразования, т.е. минимальной среднеквадратической ошибкой, и необходимым объемом вычислений.) В этом случае каждый блок представляет собой квадратную матрицу, содержащую 64 отсчета телевизионного сигнала и называемую сигнальной.

Рис. 6.14. Функциональная схема устройства кодирования с информационным сжатием по стандарту MPEG-2

Рис. 6.15. Схема разбивки изображения на блоки при реализации формата цветности 4: 2: 0

Следовательно, макроблок несет информацию о компонентах яркости определенного участка изображения и пространственно соответствующих им компонентах цветности. Поэтому любой макроблок состоит из трех прямоугольных матриц, содержащих восьмибитовые отсчеты, а именно: матрицы яркости Y_D и двух матриц цветности С_r и С_b. Цифровые отсчеты матриц Y_D, С_r и С_b непосредственно связаны с первичными значениями красного, зеленого и синего (R, G, В) соответствующих точек изображения. Значения первичных цветов гамма-предкорректированы. Причем величина гамма-коэффициента стандартом не определяется, но обычно находится в диапазоне 2, 2...2, 8.

Стандартами цифрового кодирования предусматриваются три формата цветности, каждому из которых соответствует свой порядок следования блоков в макроблоке:

4: 2: 0 - макроблок состоит из шести блоков. Четыре блока, несущие информацию о яркости, образуют матрицу Y_D размером 16x16 пикселей. Два блока цветности, определяющие цветоразностные компоненты U и V, соответствуют матрицам С_r и С_b с размерами 8x8 пикселей. Причем матрицы цветности С_r и С_b соответствуют области изображения, покрываемой матрицей яркости Y_D. Матрицы С_r и С_b в два раза меньше (как по горизонтали, так и по вертикали), чем матрица Y_D. Матрица Y_D должна иметь четное число строк и столбцов (если изображение передается по полям, то количество строк в изображении должно быть кратно четырем). Каждой паре отсчетов цветности С_r и С_b соответствует матрица из четырех отсчетов яркости (два по вертикали, два по горизонтали) (рис. 6.15). Порядок следования блоков в макроблоке формата цветности 4: 2: 0 следующий:

Y_D	С_r	С_b

4: 2: 2 - макроблок состоит из восьми блоков. Четыре блока яркости образуют матрицу Y_D. Четыре блока цветности соответствуют матрицам С_r и С_b, каждая из которых содержит по два блока. Порядок следования блоков в макроблоке в данном случае следующий:

Y_D	С_r	С_b

Матрицы цветности С_r и С_b в два раза меньше матрицы яркости Y_D по горизонтали и равны по вертикали. Матрица Y_D должна иметь четное число строк и столбцов (если изображение передается по полям, то количество строк в изображении должно быть кратно двум). Каждой паре отсчетов яркости по горизонтали соответствует по одному отсчету из матриц цветности С_r и С_b.

4: 4: 4 - макроблок состоит из двенадцати блоков. Он содержит четыре блока яркости и восемь блоков цветности в следующем порядке:

Y_D	С_r	С_b

Матрицы цветности С_r и С_b равны по размеру матрице яркости Y_D. Каждому отсчету яркости соответствуют по одному отсчету из матриц цветности С_r и С_b. Если изображение передается полями с чересстрочной разверткой, то количество строк в изображении должно быть кратно двум.

Внутренняя организация макроблоков различна при кодировании полей и кадров. Пары полей могут кодироваться как раздельно, так и вместе как единый кадр. При кодировании полей блоки яркости группируются по полям: верхний - из первого полукадра, нижние - из второго. Блоки цветности располагаются в порядке следования кадров для обоих типов кодирования. Два полукадра, составляющие один кадр, всегда следуют один за другим в битовом потоке. При кодировании кадрами чересстрочных изображений каждый кадр набирается из двух полукадров (через строку) и кодируется как единое изображение.

Следующие друг за другом макроблоки объединяют в независимые друг от друга серии (Slice - слайсы). Серия является основным элементом синхронизации для восстановления данных, составляющих изображение, и обычно состоит из всех блоков в горизонтальном направлении изображения с интервалом 16 строк, т.е. имеет толщину в один макроблок. Порядок макроблоков в серии тот же, что и в обычном сканировании растра в телевидении: слева направо и сверху вниз. Представление информации сериями удобно для коррекции ошибок. Когда появляется ошибка в потоке данных, декодер может обратиться к началу следующей серии. Соответственно число таких серий влияет на эффективность передачи. Каждая серия (слайс) должна содержать, по крайней мере, один макроблок. Первый и последний макроблоки в серии не должны быть пропущенными. Серии не должны перекрываться и не должно быть интервалов между сериями. Положение серий (слайсов) может меняться от изображения к изображению. Первая серия начинается с первого макроблока, а последняя серия заканчивается последним макроблоком изображения. Кадр делится на несколько смежных серий.

1. Производится разбиение потока кадров изображения по типам, для них находятся векторы движения, которые необходимь для повышения предсказуемости величин элементов изображения Векторы движения обеспечивают компенсацию перемещений в прошедших и последующих кадрах.

2. Для блоков с использованием компенсации движения находятся разностные ошибки предсказания движения.

В соответствии со стандартом MPEG-2 в декодере выполняются декодирование кодов переменной длины, деквантование, обратное ДКП, компенсация движения и восстанавливается исходная последовательность кадров (рис. 6.16).

Декодер содержит буферное запоминающее устройство (БЗУ), демультиплексор (ДМп), декодеры кодов с переменной длиной кодовых слов (ДКПДС), а также деквантователь (ДКв), блок обратного дискретного косинусного преобразования (ОДКП), предсказатель (Пред) и ЗУ, аналогичные соответствующим блокам кодера. Тактовая частота 27 МГц восстанавливается с использованием данных из декодируемого потока.

БЗУ на входе декодера выполняет функцию согласования постоянной скорости передачи двоичных символов во входном потоке данных с процессами в декодере, при которых данные из БЗУ считываются неравномерно во времени. С выходов демультиплексора кодированные данные изображения и значения параметра квантования поступают на ДКПДС и далее на деквантователь, а векторы движения поступают на ДКПДС и далее на предсказатель.

Рис. 6.16. Структурная схема видеодекодера MPEG-2

Так же, как и в кодере, в декодере имеются два режима работы. При приеме I-кадров и передаваемых с внутрикадровым кодированием макроблоков Р-кадров и В-кадров на выходе блока обратного ДКП формируются блоки изображения. Переключатель на структурной схеме при этом находится в положении 1, и сигнал с блока обратного ДКП направляется на выход. При приеме макроблоков Р-кадров и В-кадров, кодируемых в межкадровом режиме, переключатель находится в положении 2. В этом случае формирование выходного сигнала происходит путем поэлементного сложения поступающих с блока обратного ДКП значений разностей с предсказанным макроблоком, формируемым из элементов ранее декодированных изображений с использованием декодированных векторов движения.

Реализация декодера аппаратными, программными или аппаратно-программными средствами существенно проще, чем реализация кодера, так как в декодере не надо выполнять поиск соответствующих областей в опорных изображениях, а именно этот поиск требует наибольшего количества вычислений.

Кодируемые кадры

Базовым объектом кодирования в стандарте MPEG-2 является кадр телевизионного изображения. При этом очевидно, что для телевизионных сигналов, в которых смешаны различные сюжеты с разными типами движений «от ничего до много» простое предсказание, в принципе, не обеспечит высокую эффективность. По этой причине в стандарте MPEG-2 используются три вида предсказаний: внутрикадровое и межкадровое предсказание вперед с компенсацией движения, межкадровое двунаправленное предсказание также с компенсацией движения.

Формат видеоинформации в стандарте MPEG-2 содержит три типа кадров (I, Р, В) [16].

Основные, так называемые I-кадры (IntraFrames) обрабатываются только с применением внутрикадрового предсказания. Они кодируются независимо от других кадров, так как обрабатываются с использованием собственной информации, т.е. по принципу случайного доступа к сжатым видеоданным. Они применяют кодовое преобразование блоков элементов изображения и обеспечивают умеренное сжатие. Это первый этап сжатия видеоданных. Зато при восстановлении телевизионного изображения по I-кадрам оно менее всего деградирует и зависит от ошибок кодирования и передачи видеоданных по каналу связи I-кадры служат опорными при межкадровом предсказании Р и В кадров.

⇐ Предыдущая 24 25 26 27 282930 31 32 33 Следующая ⇒