Структура MPEG-последовательности

Структура MPEG-последовательности

Технология MPEG использует поточное сжатие видео, при котором обрабатывается не каждый кадр по отдельности (как это происходит при сжатии видео с помощью алгоритмов Motion-JPEG), а анализируется динамика изменений видеофрагментов и устраняются избыточные данные. Поскольку в большинстве фрагментов фон изображения остается достаточно стабильным, а действие происходит только на переднем плане, алгоритм MPEG начинает сжатие с создания исходного (ключевого) кадра. Играя роль опорных при восстановлении остальных изображений, они размещаются последовательно через каждые 10-15 кадров. Только некоторые фрагменты изображений, которые находятся между ними, претерпевают изменения, и именно эта разница сохраняется при сжатии. Таким образом, MPEG-последовательность содержит три типа изображений:

  • Intra (I) - исходные (И) кадры, содержащие основное изображение;
  • Predicted (P) - предсказуемые (П) кадры, содержащие разность текущего изображения с предыдущим И-кадром или учитывающие смещения отдельных фрагментов;
  • Bi-directional Interpolated (B) - двунаправленные (Д) кадры, содержащие только отсылки к предыдущим или последующим изображениям (И или П) с учетом смещений отдельных фрагментов.

И-кадры имеют довольно низкий коэффициент сжатия и составляют основу MPEG-файла. Именно благодаря им возможен случайный доступ к какому-либо отрывку видео. П-кадры кодируются относительно предыдущих кадров (будь то И- или П-кадры) и обычно используются как сравнительный образец для дальнейшей последовательности П-кадров. В этом случае достигается высокий коэффициент сжатия. Д-кадры обеспечивают наибольший коэффициент сжатия, но при этом для их привязки к видеопоследовательности необходимо использовать не только предыдущее, но и последующее изображение. Сами Д-кадры никогда не используются для сравнения. Изображения объединяются в группы (GOP - Group of Pictures), представляющие собой минимальный повторяемый набор последовательных изображений. Типичной является группа вида:

  • (И0 Д1 Д2 П3 Д4 Д5 П6 Д7 Д8 П9 Д10 Д11)
  • (И12 Д13 Д14 П15 Д16 Д17 П18 Д19 Д20 П21 Д22 Д23)

Отдельные изображения состоят из структурных единиц - макроблоков, соответствующих участку изображения размером 16і16 пикселов. Компьютер анализирует изображение и ищет идентичные или похожие макроблоки, сравнивая базовый и последующие кадры. В результате сохраняются только данные о различиях между кадрами, называемые вектором смещения (vector movement code). Макроблоки, которые не претерпевают изменений, игнорируются, так что количество данных для реального сжатия и хранения существенно снижается. Для повышения устойчивости процесса восстановления изображений к возможным ошибкам передачи данных последовательные макроблоки объединяют в независимые друг от друга разделы (slices). В свою очередь, каждый макроблок состоит из шести блоков, четыре из которых несут информацию о яркости, а два определяют цветовые компоненты. Блоки являются базовыми структурными единицами, над которыми осуществляются основные операции кодирования, в том числе выполняется дискретное косинусное преобразование (DCT - Discrete Cosine Transform). В результате при использовании MPEG-технологии можно добиться рабочего коэффициента сжатия более чем 200:1, хотя это приводит к некоторой потере качества

MPE (Moving Picture Experts Group) - объединенный комитет Интернациональной организации по стандартизации (ISO) и Интернациональной электротехнической комиссии (IEC). Эта группа экспертов встречается примерно четыре раза в год, чтобы разработать и утвердить стандарты на сжатие цифрового видео и звука. Основной критерий, который обсуждается комитетом MPEG, - это интенсивность потока сжатых данных, определяемая в зависимости от современного уровня компьютерных технологий и сферы применения данного формата. Так, MPEG-1 был разработан с учетом возможностей двухскоростных дисководов CD-ROM и компьютеров с процессором 486. Алгоритмы сжатия могут определяться самими производителями оборудования и микросхем, поэтому в этой области идет постоянная конкуренция за достижение лучших результатов.

В январе 1992 г. комитет MPEG опубликовал общие характеристики MPEG-1, а к декабрю 1993 г. они были приняты в качестве стандарта (дополнительные материалы вы можете найти в статье "Живое видео на выставке Comptek'95", "Мир ПК", 1995 г., # 7-8). По этим спецификациям интенсивность потока данных сжатого видео и звука должна укладываться в 1,5 Мбайт/с, хотя были предусмотрены режимы вплоть до 4-5 Мбайт/с. Важность сокращения потока данных определялась существовавшими на тот момент стандартами Video-CD, CD-i и характеристиками дисководов CD-ROM. Базовый алгоритм ограничивает скорость передачи данных диапазоном 150-225 Кбайт/с с разрешением 352x288 (PAL) или 320x240 (NTSC) при частоте смены 25 или 30 кадров в секунду соответственно.

Окончательное утверждение MPEG-2 в качестве международного стандарта было дано на 29-м съезде MPEG (Сингапур, ноябрь 1994 г.). В его спецификациях определена допустимая интенсивность потока данных от 2 до 10 Мбайт/с. Первично MPEG-2 разрабатывался для цифровой передачи и отображения видео вещательного качества, но позже в нем был предусмотрен формат телевидения высокой четкости (ТВЧ). До этого необходимые спецификации для ТВЧ предполагалось включить в последующий стандарт MPEG-3, с разрешением вплоть до 1920x1080 при частоте 30 Гц и интенсивности потока данных от 20 до 40 Мбайт/с. Оказалось, что с некоторой доработкой метод кодирования MPEG-2 и даже MPEG-1 работают вполне нормально даже для задач телевидения высокой четкости. В результате разработка MPEG-3 была прекращена.

Зато начались работы над MPEG-4. Новый стандарт будет рассчитан на очень низкие потоки данных для применения в видеотелефонах, мультимедийной электронной почте, электронных информационных изданиях и т. п. Объявлено об этом было на встрече в Брюсселе в сентябре 1993 г. MPEG-4 будет оптимизирован для минимальных разрешений, вплоть до 176x144 при частоте 10 Гц с интенсивностью потока данных от 4800 до 64000 бит в секунду. Для достижения нормальной производительности и приемлемого качества при столь низких требованиях к ресурсам, скорее всего, будет применена новая технология сжатия видео- и аудиоданных