MPEG-2: ликбез: Видео

Технології 08 серпня 2023

За короткое время аббревиатура MPEG стала нам настолько привычной, что нет повода задуматься, как это работает

Как получают цифровой видеосигнал
Сжатие

MPEG-2 — это стандарт, предназначенный для кодирования сигналов цифрового вещательного телевидения, так что начинать рассказ о нем надо с истории цифрового видео. Она, как ни странно, связана вовсе не с компьютерами, как кажется сейчас, а с телевещанием, ведь недостатки аналогового сигнала сказывались прежде всего на телевизионной аудитории. Основных проблем две — это стремительное падение качества с каждым новым перезаписыванием (страшно вспомнить, что такое «пятая копия» на VHS) и большие помехи при передаче сигнала, с которыми очень сложно бороться. Первое сказывается на качестве программ, второе — на качестве картинки у зрителя. Способ избавиться от этих недостатков был известен еще с 50-х годов — это перевод сигнала в цифровую форму. Однако технические возможности для оцифровки видео в реальном времени появились лишь около четверти века тому назад, и в 1979 году Европейский Вещательный Союз (EBU) и Общество инженеров кино и телевидения (SMPTE) совместно подготовили проект международного стандарта цифрового кодирования цветного телевизионного сигнала, а в 1982 году стандарт был принят. MPEG-2 базируется именно на этом стандарте ITU-R BT.601.

Как получают цифровой видеосигнал

Известно, что любой из миллионов оттенков, которые различает человек, представим в виде комбинации трех опорных цветов: красного (Red), зеленого (Green) и синего (Blue) — это так называемая цветовая модель RGB. Используя эту модель, цветной аналоговый сигнал (например, изображение, которое «видит» объектив аналоговой видеокамеры) можно разложить на RGBкомпоненты.

Однако для телевидения такое разложение не подходило: при переходе к цветному вещанию требовалось, чтобы цветные передачи можно было смотреть на черно-белых телевизорах, а это невозможно, если сигнал состоит из RGBкомпонент. Решением стало преобразование RGBсигналов в сигнал яркости Y и два цветоразностных сигнала U и V — в этом случае информация о цвете (U и V) передается отдельно от информации о яркости Y, и в черно-белом телевидении используется только сигнал яркости, а в цветном — яркости совместно с цветом. Заодно оказалось возможным уместить цветной телевизионный сигнал в стандартную полосу пропускания: за счет того, что человеческий глаз менее чувствителен к пространственным изменениям цвета, чем к изменениям яркости, информацию о цвете можно «урезать» без ущерба для восприятия.

Для цифрового кодирования одинаково подходят оба разложения.

Итак, для того чтобы сформировать цифровой сигнал, необходимо выполнить над каждой компонентой аналогового сигнала (R, G, B или Y, U, V) следующие операции: дискретизацию, квантование и кодирование.

Дискретизация — это представление непрерывного аналогового сигнала последовательностью значений его амплитуд (так называемых отсчетов). Частота, с которой выбираются значения, называется частотой дискретизации. На схемах справа показаны аналоговый и дискретизированный с частотой 1/T сигналы. Очевидно, что чем больше частота дискретизации, тем точнее будет воспроизведен аналоговый сигнал. Чтобы получить изображение высокого качества, частота дискретизации должна быть не менее 12 МГц (то есть 12 млн отсчетов в секунду). В стандарте цифрового кодирования она выбрана равной 13,5 МГц.

Квантование — округление значений отсчетов. Так как человеческий глаз обладает конечной разрешающей способностью, то передавать абсолютно точно все значения отсчетов нет необходимости. Было придумано заменять величину отсчета ближайшим значением из некоторого набора фиксированных величин, которые называются уровнями квантования, то есть округлять до ближайшего уровня. На схеме справа показан квантованный сигнал. Для создания сигнала нужного качества достаточно 256 уровней квантования.

И наконец, кодирование. Так как квантованный сигнал может принимать только конечное число значений (в соответствии с набором уровней квантования), то для каждого отсчета можно представить его просто числом, равным собственно порядковому номеру уровня квантования. Это число может быть закодировано двоичными символами (например, нулями и единицами). Чтобы закодировать 256 уровней квантования, требуется как минимум восемь бит (28 = 256), то есть значение каждого отсчета передается восемью битами.

В итоге после дискретизации, квантования и кодирования мы получили из аналогового сигнала набор импульсов, принимающих только два значения — 0 и 1, которые уже можно передавать как обычные данные. Это называется аналого-цифровым преобразованием, или АЦП.

Легко посчитать необходимую скорость потока при передаче оцифрованного нами сигнала: умножим восемь бит на количество отсчетов, передаваемых в секунду (не забудем, что у нас три компоненты): 8 [бит] х 13,5 [МГц] х 3 = 324 Мб/с!!! Работать с такими потоками — очень дорогое и почти недоступное удовольствие (для сравнения: стандартный модем передает со средней скоростью 33,2 кб/с, то есть в десять тысяч раз медленнее).

Здесь самое время напомнить о том, что, как и в аналоговом телевидении, при оцифровке Y, U и V можно безболезненно удалить часть информации о цвете, то есть уменьшить в несколько раз частоту дискретизации цветоразностных сигналов. Поэтому кодирование YUV (называемое раздельным) с точки зрения величины потока получается более выгодным, чем RGB. При раздельном кодировании принято указывать соотношение частот дискретизации компонент. Например, 4:2:2 означает, что Y передается в каждом отсчете в каждой строке, а U и V — в каждом втором отсчете в каждой строке (то есть частота дискретизации Y равна 13,5 МГц, а U и V в два раза меньше — 6,75 МГц).

Сжатие

Однако результаты кодирования в отношении величины цифрового потока все равно никого не устраивали. Для вещательного телевидения требуется раздельное кодирование как минимум 4:2:2 — это 216 Мб/с. Даже если не говорить о передаче данных, просто писать такой поток на ленту или на винчестер представляется проблемой.

Выход один: сжатие цифрового видеопотока. К счастью, цифровой видеосигнал по сути своей избыточен и потому для сжатия подходит как нельзя лучше: можно без потерь с точки зрения восприятия сжимать видео даже в 30 раз! Избыточность видеосигнала, во-первых, вызвана тем, что человеческий глаз не замечает изменений яркости и цвета на небольших участках, то есть мелких деталей. Эта избыточность называется пространственной и удаляется при внутрикадровом кодировании — сокращении информации в пределах одного кадра.

Во-вторых, обычно в пределах нескольких секунд следующие друг за другом кадры слабо отличаются друг от друга — это так называемая временная избыточность. Нет необходимости передавать все кадры полностью, для некоторых достаточно передать только отличия от предыдущих или последующих кадров. Временная избыточность удаляется межкадровым кодированием, при котором сокращается информация о некоторой группе кадров в целом.

Надо сказать, что со времен начала работы с цифровым видео было создано великое множество форматов сжатия: от Cinepak и Intel Indeo до H.263, MJPEG и DV. Часть из них удаляют только пространственную избыточность (как DV или MJPEG), но некоторые алгоритмы (например, Intel Indeo) используют и межкадровую разность.