Цифровое видео: обзор форматов

В последнее время у домашних пользователей появилась возможность собственноручно создавать цифровые видеофильмы. Нет нужды объяснять, насколько удобно хранить семейные видеоархивы в такой форме. Оцифрованные записи не портятся со временем, не теряют качества при копировании, легко поддаются редактированию. Не последнюю роль в их распространении сыграли технологии сжатия видеоизображений, которые продолжают совершенствоваться и сейчас.

Сначала разберемся, зачем вообще сжимать видео. Чтобы понять это, обратимся к основным принципам оцифровки движущихся изображений.

Видеопоследовательность формируется из следующих друг за другом кадров размером 720 x 576 пикселов, которые сменяются 25 раз в секунду (согласно стандарту PAL). Если оцифровывать их с глубиной цвета в 16 бит, то каждый кадр будет занимать примерно 1,2 MB, а это значит, что для хранения 1 секунды видео потребуется примерно 30 MB дискового пространства, и на полуторачасовой фильм уйдет около 150 GB. Это как минимум впятеро больше емкости жестких дисков, которыми оснащаются современные домашние компьютеры. Попробуйте на досуге посчитать, сколько 650-мегабайтовых СD понадобится для того, чтобы записать один такой фильм. Для уменьшения объема файлов, содержащих оцифрованное видео, применяют различные алгоритмы сжатия данных. Различают два типа алгоритмов, работающих, соответственно, без потери информации и с таковой.

Сжатие без потерь (фактически без снижения качества изображения) в цифровой видеозаписи выполняется методами, аналогичными тем, которые используются в архиваторах вроде WinZIP или WinRAR. Однако из-за некоторых особенностей видеоинформации такие алгоритмы в данном случае недостаточно эффективны (минимальный размер сжатого файла составляет 1/3 от исходного) и поэтому практически не применяется.

Сжатие с потерей качества является основным методом уменьшения размера видеофайлов. Такие алгоритмы позволяют определить ту часть информации, которую зритель, вероятнее всего, не заметит при просмотре фильма, и удалить ее из файла. Основными форматами цифрового видео, использующими сжатие с потерями, на сегодняшний день являются Apple QuickTime, Intel Indeo, MPEG-1, MPEG-2, MJPEG и MPEG-4. В разработке также находятся спецификации стандарта MPEG-7, но о нем пока говорить еще рано.

Apple QuickTime

Формат файлов с расширением MOV был разработан Apple для компьютеров Macintosh и позже перенесен на платформу PC. С 1993 по 1995 г. этот формат был доминирующим. Последняя его версия за номером 4.1 позволяет передавать данные в потоковом режиме. Это значит, что нет необходимости полностью загружать файл, чтобы начать просмотр видеоролика. Однако с появлением спецификаций MPEG данный формат постепенно теряет популярность. Основная его проблема заключается в том, что стандарт QuickTime — закрытый. Способы, с помощью которых кодируется видео, Apple держит в секрете. Следовательно, сторонние программисты не могут написать программ, сжимающих видео в этот формат.

Intel Indeo

Данный формат был разработан корпорацией Intel для сжатия видеоданных с использованием новых возможностей процессоров Intel Pentium MMX. Кроме поддержки потоковой передачи данных и функций защиты авторских прав, этот стандарт реализует несколько новаторских на момент его появления функций. Он позволяет применять к видеопоследовательности различные эффекты (например, изменять яркость или контрастность) в реальном времени, декодировать не весь кадр, а, к примеру, центральный фрагмент, делать часть кадра одного видеоролика прозрачной и накладывать две видеозаписи друг на друга. Последний эффект часто используют в программах телевизионных новостей, когда комментатор изображается на фоне видеорепортажа с места событий.

Однако формат Indeo не получил большого распространения. А с выходом MPEG-4, в котором также присутствуют все эти возможности, данный стандарт вообще оказался не у дел.

MPEG-1

Формат сжатия видеоданных MPEG-1 был разработан Motion Picture Expert Group — международной организацией, создающей стандарты сжатия видеоинформации. Он поддерживает максимальное разрешение кадра 4095 x 4095 пикселов при частоте их смены до 60 раз в секунду. Однако обычно используют разрешение 352 x 288, соответствующее качеству записи на обычную кассету VHS.

Как происходит сжатие информации в этом формате? Предположим, что у нас есть следующая сцена: автомобиль движется из пункта "А" в пункт "Б". Перемещение машины можно описать двумя параметрами: вектором перемещения из точки "А" в точку "Б" и углом поворота вокруг своей оси. Задний план при этом остается неизменным или почти неизменным — зритель вряд ли обратит внимание на колебания мелких веток у дальних деревьев. Следовательно, можно разбить кадр на две составные части — задний план, который сохраняется один раз, а затем подставляется при воспроизведении всех кадров, и область, где движется машина, — ее придется записывать отдельно для каждого кадра.

В формате MPEG-1 все кадры видеоролика подразделяются на три типа: I-, P- и B-кадры. К первому типу (I-кадры, Intra Frames) относятся опорные кадры. Их изображения сохраняются в полном объеме в формате JPEG. Для P-кадров (Predicted Frames) записываются только отличия от предыдущего i-кадра, что требует намного меньше дискового пространства. Для B-кадров (Bi-DirectiOnally Interpolated Frames) сохраняются отличия от предыдущего и следующего I- или P-кадра (рис 2).

В итоге размер сжатого файла составляет примерно 1/35 от исходного. Это значит, что полуторачасовой фильм с качеством, эквивалентным аналоговой записи на кассете VHS, в формате MPEG-1 поместится на два компакт-диска. Для передачи через Internet или в сетях спутникового вещания этот стандарт, конечно же, не подходит. Но бытовых проигрывателей Video CD, работающих в этом формате, выпускалось (и, к слову сказать, выпускается и сейчас) достаточно много.

Более подробно о формате MPEG-1 вы можете прочитать здесь.

MPEG-2

MPEG-2 представляет собой дальнейшее расширение MPEG-1. В нем увеличен рекомендуемый размер кадра — теперь он составляет 1920 x x 1080 точек, добавлена поддержка шестиканального звука. Однако для воспроизведения видео в этом формате требуется более высокая вычислительная мощность компьютера.

Следует отметить, что велась работа над созданием стандарта MPEG-3 (не путать с популярным нынче форматом сжатия звука — MPEG-1 Audio Layer 3). Он должен был стать базовым для систем цифрового телевидения высокой четкости HDTV. Но работа над ним была прервана, поскольку нужные для HDTV требования удалось реализовать в виде небольших расширений к MPEG-2.

Этот формат сейчас довольно широко распространен на Западе: его используют для передачи видео по спутниковым каналам и кабельным сетям цифрового телевидения, кроме того, все видеодиски DVD записаны именно в этом формате.

MJPEG

Фактически MJPEG (Motion JPEG) — это переходный формат от сжатия обычных фотографий к сжатию видео. Каждый кадр записывается в формате JPEG, а затем помещается в видеоряд. MJPEG используется преимущественно в платах видеомонтажа, например Fast AV Master, MiroVideo DC50 и т. д. Он позволяет уменьшить поток видеоданных с 30 MBps до 6 MBps. Для применения в бытовых видеопроигрывателях этот стандарт мало пригоден из-за низкого коэффициента сжатия (5:1) и отсутствия средств для синхронизации видеоряда и звука.

MPEG-4

Форматы MPEG-1 и MPEG-2 не обеспечивали реальной возможности трансляции видео по сети Internet и создания интерактивного телевидения на их основе — слишком уж большим был размер файлов. Для его радикального уменьшения, а также реализации других функций, необходимых для передачи потокового видео, была начата работа над спецификациями нового формата — MPEG-4. По сути, он ориентирован не столько на сжатие видео, сколько на создание так называемого "мультимедийного контента" — слияния интерактивного телевидения, 3D-графики, текста и т. д.

Что касается самого видео, то важнейшим нововведением стало дальнейшее усовершенствование технологий разложения сцены на объекты и алгоритмов их эффективного сжатия. Так, например, при сжатии видеозаписи теннисного матча большинство кадров можно условно разложить на изображения трибун (задний план) и теннисистов. Внимание зрителя, скорее всего, будет приковано к игрокам, поэтому детализацию заднего плана можно уменьшить (это даст дополнительную экономию места), а игроков — увеличить. Для типовых объектов даже разработаны отдельные алгоритмы предсказания и описания их движений — это касается, в частности, походки людей, наиболее распространенных жестов, мимики. Теперь такие изменения в кадрах нет нужды записывать вообще — их можно рассчитать программно.

В MPEG-4 поддерживается отображение текста различными шрифтами поверх видеоизображения. Более того, этот текст может быть озвучен с помощью синтезатора речи с возможностью имитации мужских и женских голосов. При необходимости голос синхронизируется с движениями лица диктора в соответствии с произносимыми фонемами. Также может синтезироваться звучание некоторых музыкальных инструментов. Сжатие оцифрованных звукозаписей осуществляется более эффективно с помощью специально разработанного кодека AAC (Advanced Audio Codec).

Для более подробного ознакомления можно порекомендовать документ "Overview of the MPEG-4 standard", который находится здесь.

Для воспроизведения видео в формате MPEG-4 требуется достаточно большая вычислительная мощность ПК, но зато по эффективности сжатия он не имеет себе равных.

Цифровое видео: обзор форматов

Популярные статьи