МАКРОБЛОКИ
Макроблоком называется квадратный фрагмент изображения размером 16x16 элементов (пикселов). Макроблок содержит информацию как о яркости (У), так и о цветности (СB, CR). В случае использования формата дискретизации 4:2:0 каждый макроблок содержит четыре блока 8x8 элементов сигнала яркости У и по одному блоку 8x8 элементов цветоразностных сигналов CR и СB. При использовании формата 4:2:2 каждый макроблок содержит при том же количестве блоков Y по два блока CR и СB, а при использовании формата 4:4:4 - по четыре блока CR и СB.
Группа следующих друг за другом макроблоков называется слайсом (slice - доля, часть, квант). Число макроблоков в слайсе может быть произвольным. Слайсы в изображении не должны перекрываться, но их положение может изменяться от одного изображения к другому.
ПРОГРЕССИВНАЯ И ЧЕРЕССТРОЧНАЯ РАЗВЕРТКИ
При кодировании телевизионного изображения, передаваемого с прогрессивной разверткой, каждый кадр состоит из одного поля и разбивается на макроблоки.
В случае чересстрочной развертки каждый кадр состоит из двух полей. Первое поле содержит нечетные строки кадра, а второе поле - четные строки. При этом возможны два варианта кодирования кадра, выбор одного из которых для данного кадра осуществляется на основе оценки движения в нем.
В случае кадрового кодирования (frame) кодируемым изображением является полный кадр, который целиком хранится в ЗУ кодера, вследствие чего для кодирования одновременно доступны как четные, так и нечетные строки. Блоки элементов сигнала яркости и блоки элементов цветоразностных сигналов для форматов 4:2:2 и 4:4:4 выделяются из макроблока, как это показано на рис. 4.3,а, где заштрихованными показаны нечетные строки, а не заштрихованными - четные. В случае формата 4:2:0 в блоки цветоразностных сигналов берутся элементы из каждой второй строк». Кадровое кодирование выбирается в случаях, когда изменения во втором поле кадра относительно первого поля того же кадра незначительные.
В случае полевого кодирования (field) кодируемым изображением является каждое поле. Первое поле кадра может использоваться для предсказания макроблоков второго поля того же кадра. При этом в каждый блок элементов сигнала яркости или элементов цветоразностных сигналов для форматов 4:2:2 и 4:4:4 входят элементы из одного поля, как это показано на рис. 4.3,6. Блоки элементов цветоразностных сигналов для формата 4:2:0 образуются также, как при кадровом кодировании.
Как уже указывалось, при описании работы кодера и декодера говорится о кадровом кодировании, но следует помнить, что существует и полевое кодирование.
КОДЕР ВИДЕОИНФОРМАЦИИ
В стандартах MPEG не описано построение кодера, а лишь определен синтаксис потока данных на его выходе. Структурная схема кодера видеоинформации (рис. 4.4) отображает основные операции, выполняемые при кодировании и обеспечивающие получение выходного потока данных с требуемыми параметрами.
На схеме обозначены ДКП - блок прямого дискретного косинусного преобразования; ДКП-1 - блок обратного дискретного косинусного преобразования; Кв - квантователь; Кв-1 - деквантователь, т. е. блок, выполняющий обратную квантованию операцию; ЗУ — запоминающее устройство; Пред — блок, выполняющий формирование предсказанного кадра; ОД - блок оценки движения и формирования векторов движения; КПДС - блок, в котором выполняется кодирование с переменной длиной кодового слова; Мп -мультиплексор; БЗУ - буферное запоминающее устройство; УКС -блок управления коэффициентом сжатия изображения.
Кроме того, на схеме показаны сумматор, вычитающее устройство и переключатель. Работа всех блоков синхронизируется общей тактовой частотой 27 МГц.
В кодере реализуются два режима кодирования: внутрикад-ровое кодирование (переключатель в положении 1) и межкадровое кодирование с предсказанием и компенсацией движения (переключатель в положении 2).
Все макроблоки I-кадров кодируются в режиме внутрикадро-вого кодирования. Метод аналогичен JPEG: разложение на блоки 8x8 пикселов, поблочное ДКП, квантование полученных коэффициентов в соответствии с формулой (4.1), считывание в зигзагообразном порядке, кодирование с переменной длиной кодовых слов. При квантовании могут использоваться, например, табл. 4.1 и 4.2. В случае использования нестандартных таблиц коэффициентов квантования они включаются в общий выходной поток данных.
Кодирование с переменной длиной кодовых слов осуществляется с помощью таблиц кодов, имеющихся в стандарте. Как и в JPEG, коэффициенты ДКП, соответствующие постоянным составляющим, кодируются с использованием предсказания по таким же коэффициентам предыдущих блоков, и для них предназначены отдельные таблицы кодов с переменной длиной кодовых слов. Отметим, что в тексте стандартов нет термина "кодирование по Хаффмену". Видимо это связано с тем, что таблицы кодов заданы в стандарте, а не вычисляются под конкретные данные, как это требуется при кодировании по Хаффмену.
Макроблоки Р-кадров могут кодироваться как внутрикадровым методом, так и межкадровым в зависимости от наличия и интенсивности изменений в этом макроблоке по сравнению с соответствующей областью изображения, по которому выполняется предсказание данного Р-кадра, т. е. в зависимости от результатов оценки движения.
Изображение, по которому выполняется предсказание, формируется из кодированных данных предыдущего I- или Р-кадра.
В деквантователе данные умножаются на коэффициенты квантования, затем выполняется обратное ДКП так же, как это делается в декодере в приемной части системы, после чего декодированное изображение записывается в ЗУ. Как было показано в § 3.5, использование обратной связи при получении данных для предсказания позволяет избежать накопления ошибок квантования. Для реализации всех возможных вариантов предсказания ЗУ должно содержать несколько (как минимум 4) предыдущих кадров.
Оценка движения осуществляется путем сравнения текущего изображения, поступающего на вход кодера, с изображением, находящимся в ЗУ и используемым для предсказания (опорным изображением). Эта процедура поясняется рис. 4.5,а. Для каждого макроблока кодируемого изображения отыскивается, как это было описано в § 3.4, соответствующая ему область А1 размером 16x16 элементов в опорном изображении. Положение соответствующей области определяется с точностью до половины пиксела по обеим координатам.
Если в области поиска не найдена соответствующая область, отличие которой от данного макроблока не превышает установленной величины, то этот макроблок кодируется во внутрикадровом режиме аналогично макроблокам 1-кадров.
Если соответствующая область А1 найдена, то макроблок кодируется в межкадровом режиме, и для него определяется вектор движения V1. Векторы движения кодируются с переменной длиной кодовых слов и через мультиплексор включаются в общий поток данных.
Если для макроблока выбран межкадровый режим кодирования, то формируется предсказанный макроблок (Предск.МБ), в качестве которого берется найденная соответствующая область А1 из опорного изображения. Предсказанный макроблок поэлементно вычитается из настоящего макроблока. Полученный разностный макроблок (ошибка предсказания) проходит поблочное ДКП, квантование и кодирование с переменной длиной кодовых слов. Матрица коэффициентов квантования для ошибок предсказания содержит 64 числа 16 и используется для квантования как яркостных, так и цветоразностных составляющих.
Для макроблоков В-кадров поиск соответствующей области осуществляется как в предшествующем I- или Р-кадре так и в последующем Р-кадре (рис. 4.5,6). В зависимости от результатов поиска соответствующей области возможны следующие варианты:
- макроблок кодируется во внутрикадровом режиме;
- формируется предсказанный макроблок в виде соответствующей области А1 предыдущего I- или Р-кадра;
- формируется предсказанный макроблок в виде соответствующей области А2 последующего Р-кадра;
- формируется предсказанный макроблок в виде поэлементной полусуммы соответствующей области А1 предыдущего I- или Р-кадра, и соответствующей области А2 последующего Р-кадра, т. е. в виде результата интерполяции по этим областям.
В последних трех вариантах макроблок кодируется в межкадровом режиме, как это было описано для Р-кадров. В случае предсказания путем интерполяции для макроблока необходимо передавать два вектора движения VI и V2, показывающие положения соответствующих областей в предыдущем и в последующем кадрах.
При кодировании телевизионных изображений с чересстрочной разверткой возможны два основных варианта предсказания: полевой и кадровый. При полевом предсказании макроблоки каждого поля предсказывается независимо от другого поля этого кадра, и для формирования предсказанного макроблока используются данные одного или двух ранее кодированных полей. При кадровом предсказании для формирования предсказанного макроблока используются данные, содержащиеся в обоих полях одного или двух ранее кодированных кадров. Помимо этого стандарт предусматривает дополнительные режимы предсказания при чересстрочной развертке.
Кроме того, стандарт позволяет пропускать некоторые макроблоки при кодировании (skipped macroblock). Для таких макроблоков никакие данные не передаются. Этот вариант используется, если кодируемый макроблок не имеет отличий от соответствующего макроблока в опорном изображении.
Описанный способ кодирования телевизионного сигнала и называется кодированием с предсказанием и компенсацией движения. Выигрыш в сжатии изображения достигается благодаря тому, что разности действительных и предсказанных макроблоков Р- и В-кадров содержат значительно меньше информации, чем сами эти макроблоки. При этом для В-кадров объем передаваемой информации будет наименьшим, так как при двунаправленном предсказании ошибка предсказания минимальна.
Кодированные видеоданные и векторы движения через мультиплексор поступают в БЗУ, работающее по принципу "первым вошел - первым вышел".
Одна из функций БЗУ - согласование неравномерного во времени потока данных после кодирования со строго постоянной скоростью передачи двоичных символов при выполнении кодирования в реальном времени. Неравномерность потока данных, поступающих в БЗУ, обусловлена в первую очередь наличием разных типов кадров. Считывание данных из БЗУ осуществляется с постоянной скоростью. Степень заполненности БЗУ колеблется во времени, возрастая при увеличении потока поступающих на него данных и снижаясь при уменьшении этого потока.
Помимо различия типов кадров на степень заполнения буфера может влиять характер передаваемого изображения. Если в изображении много мелких деталей, возрастает количество и уровень высокочастотных составляющих пространственно-частотного спектра, т. е. количество отличных от нуля коэффициентов ДКП. Это приводит к увеличению потока данных. При передаче же "гладких" изображений количество отличных от нуля коэффициентов ДКП уменьшается, так как пространственно-частотный спектр изображения имеет в основном низкочастотные составляющие.
Для оптимизации работы системы желательно поддерживать уровень заполнения БЗУ приблизительно постоянным. Если БЗУ переполняется, то, очевидно, будет происходить потеря части данных, т. е. ухудшение качества изображения на выходе системы. Если же БЗУ полностью освобождается, то по каналу связи приходится передавать "пустые" блоки, что приводит к снижению эффективности его использования. Чтобы избежать обоих нежелательных случаев, в кодере изображения введена обратная связь с БЗУ на блок УКС, управляющий степенью сжатия изображения.
Сущность действия этой обратной связи заключается в следующем. Если передается мелкоструктурное изображение, и заполнение БЗУ увеличивается, то под воздействием обратной связи увеличивается параметр квантования коэффициентов ДКП [см. формулу (4.1)]. При этом число бит на каждый коэффициент уменьшается, и уровень потока данных поддерживается примерно постоянным. Наоборот, при передаче "гладких" изображений квантование становится более точным. Такой метод соответствует свойствам человеческого зрения: на мелкоструктурных изображениях менее заметны неточности в передаче уровней яркости, так как в первую очередь воспринимаются контуры деталей. Изменение параметра квантования может осуществляться или после кодирования каждого кадра с учетом его типа, или в пределах одного кадра после кодирования каждого слайса. Данные о параметре квантования включаются в общий .поток данных в заголовки слайсов.
ПОТОК ВИДЕОДАННЫХ MPEG-2
Упрощенная структура потока данных на выходе видеокодера MPEG-2 показана на рис. 4.6.
Самой крупной структурной единицей потока видеоданнь является видеопоследовательность (video sequence), в некоторь русскоязычных источниках называемая рядом. Видеопоследовтельность может содержать произвольное число групп изображен ний (GOP), которые, в свою очередь, состоят из кадров (при кадровом кодировании) или полей (при полевом кодировании) разных типов (I, P, В). Каждое изображение состоит из слайсов, каждый из которых содержит некоторое число макроблоков.
Каждая структурная единица потока видеоданных начинается с соответствующего стартового кода, позволяющего при декодировании выделять из потока нужные данные.
Передача видеоданных всегда начинается с заголовка видеопоследовательности (Заголовок ВП), за которым следует расширение заголовка видеопоследовательности (Расшир. Зг. ВП). В этих частях потока данных передается, в частности, следующая информация:
- ширина и высота изображения, выраженные количествами
пикселов;
- отношение ширины к высоте;
- частота кадров;
- скорость передачи двоичных символов для этого потока видеоданных;
- признаки необходимости загрузки из потока видеоданньп матриц коэффициентов квантования;
- признак чересстрочной развертки;
- формат дискретизации (4:2:0, 4:2:2 или 4:4:4).
Далее могут передаваться расширение и данные пользователя (Расшир. и польз.). Эта часть потока может отсутствовать, что показано стрелкой, идущей в обход блока. Расширение присутствует, в частности, если используется масштабируемость (см. ниже).
Каждая группа изображений может начинаться с заголовка (Заголовок GOP). Наличие этого заголовка обязательно для первой группы изображений в видеопоследовательности. Для других групп изображений заголовок может отсутствовать (стрелка в обход не показана), так как начало группы всегда совпадает с I-кадром. После заголовка группы изображений могут передаваться данные пользователя.
Перед каждым кадром или полем идет заголовок изображения (Заголовок изобр.), содержащий номер этого изображения в видеопоследовательности, тип изображения (I, P или В) и другие данные. Затем могут передаваться расширение и данные пользователя. После этого передаются сами данные изображения (Данные изобр.). Заголовок каждого слайса (на рис. 4.6 не показано) содержит данные о положении этого слайса в изображении, значение параметра квантования и другую информацию. Данные -внутри каждого макроблока также расположены в заданном порядке.
После передачи данных изображения может следовать другое изображение этой же группы (стрелка на блок Заголовок изобр.) или начинаться следующая группа изображений (стрелка на блок Заголовок GOP). Если передано последнее изображение в видеопоследовательности, то передается признак окончания последовательности (Конец ВП).
ДЕКОДЕР ВИДЕОИНФОРМАЦИИ
В соответствии со стандартом в декодере (рис. 4.7) выполняются декодирование кодов переменной длины, деквантование, обратное ДКП, компенсация движения и восстанавливается исходная последовательность кадров.
Декодер содержит буферное запоминающее устройство (БЗУ); демультиплексор ДМп, декодеры кодов с переменной длиной кодовых слов ДКПДС, а также деквантователь Кв-1, блок обратного дискретного косинусного преобразования ДЮТ1, предсказатель Пред и ЗУ, аналогичные соответствующим блокам кодера. 1 актовая частота 27 МГц восстанавливается с использованием энных из декодируемого потока.
БЗУ на входе декодера выполняет функцию согласования постоянной скорости передачи двоичных символов во входном потоке данных с процессами в декодере, при которых данные из БЗУ считываются неравномерно во времени. С выходов демультиплек-сора кодированные данные изображения и значения параметра квантования поступают на ДКПДС и далее на деквантователь, а векторы движения поступают на ДКПДС и далее на предсказатель.
Так же как и в кодере, в декодере имеются два режима работы. При приеме I-кадров и передаваемых с внутрикадровым кодированием макроблоков Р-кадров и В-кадров на выходе блока обратного ДКП формируются блоки изображения. Переключатель на структурной схеме при этом находится в положении 1, и сигнал с блока обратного ДКП направляется на выход. При приеме макроблоков Р-кадров и В-кадров, кодируемых в межкадровом режиме, переключатель находится в положении 2. В этом случае формирование выходного сигнала происходит путем поэлементного сложения поступающих с блока обратного ДКП значений разностей с предсказанным макроблоком, формируемым из элементов ранее декодированных изображений с использованием декодированных векторов движения.
Реализация декодера аппаратными, программными или аппаратно-программными средствами существенно проще, чем реализация кодера, так как в декодере не надо выполнять поиск соответствующих областей в опорных изображениях, а именно этот поиск требует наибольшего количества вычислений.
МАСШТАБИРУЕМОСТЬ
Важной особенностью стандарта MPEG-2 является масштабируемость (Scalability), которая определяется как возможность получения изображения из части полного потока видеоданных. Последний в случае наличия масштабируемости состоит из двух или более слоев (layers). Базовый слой дает возможность получить изображение с некоторыми начальными параметрами качества. Дополнительные (enhancement) слои потока данных позволяют получить изображение улучшенного качества. Стандарт MPEG-2 предусматривает возможность организации потоков видеоданных как с масштабируемостью, так и без нее.
Стандартом MPEG-2 предусмотрены следующие виды масштабируемости: по пространственному разрешению (Spatial Scalable), по отношению сигнал/шум (SNR Scalable), по времени (Temporal Scalable) и по разделению данных (Data partitioning Scalable). Каждый вид масштабируемости, взятый отдельно, предполагает наличие в потоке данных двух уровней. В случае использования одновременно двух или более видов масштабируемости число уровней в потоке данных может быть до трех.
Масштабируемость по пространственному разрешению заключается в получении от одного источника видеоинформации двух ТВ-сигналов с разными параметрами по разрешающей способности. Например, сигналов ТВ обычной четкости и ТВ высокой четкости. Базовый слой потока данных содержит информацию, достаточную для воспроизведения изображение обычной четкости. Дополнительный слой содержит данные, позволяющие дополнить воспроизводимое изображение до изображения высокой четкости. Важно отметить, что объем этих дополнительных данных меньше, чем полный объем данных об изображении высокой четкости, так как часть информации передается в базовом слое.
Пользователи, имеющие декодеры, способные декодировать оба слоя потока данных, и, следовательно, более сложные и дорогие, будут получать на экранах своих приемников изображение высокой четкости. Другие пользователи, имеющие более простые и дешевые декодеры для декодирования только базового слоя, также смогут смотреть эти передачи, но в виде изображения обычной четкости.
Масштабируемость по отношению сигнал/шум дает возможность получать от одного источника видеоинформации изображения с двумя уровнями отношения сигнал/шум и, следовательно, с двумя уровнями качества. Под шумом понимаются ошибки, вносимые квантованием и кодированием. Базовый слой потокаданных может содержать изображение с большей степенью сжатия и, следовательно, менее качественное. Дополнительный слой при этом будет содержать данные, позволяющие при их добавлении к данным базового слоя получить изображение с меньшей степенью сжатия, т. е. более качественное.
Масштабируемость по времени позволяет получать от одного источника видеоинформации телевизионные изображения с двумя уровнями разрешающей способностью по времени. Например, базовый слой может содержать обычный ТВ-сигнал с частотой кадров 25 Гц и чересстрочной разверткой, а дополнительный слой - данные, позволяющие при их добавлении к данным базового слоя получить телевизионное изображение с частотой кадров 50 Гц и прогрессивной разверткой.
Масштабируемость по разделению данных позволяет использовать для передачи параллельно два канала связи. По одному из них, более помехозащищенному, передается базовый слой, содержащий наиболее критичную к ошибкам информацию — заголовки, векторы движения, коэффициенты ДКП, соответствующие низким пространственным частотам. По менее помехозащищенному каналу передаются менее критичные к ошибкам данные, например, коэффициенты ДКП, соответствующие высоким пространственным частотам.
Этот вид масштабируемости хорошо сочетается с предыдущими тремя видами, при использовании каждого из которых базовый слой потока данных может передаваться по более помехозащищенному каналу связи, а дополнительный слой - по менее помехозащищенному. Тогда при хороших условиях приема пользователь, имеющий декодер для обоих слоев, сможет видеть изображение наивысшего качества, а при ухудшении этих условий, например, при удалении от передатчика, он сможет принимать менее качественное изображение.
Следует отметить, что масштабируемость, заложенная в стандарте, пока редко встречается в практических реализациях цифровых телевизионных систем, однако она является важной предпосылкой их дальнейшего развития. Подход, основанный на масштабируемости, в последние годы стал характерным не только для цифрового телевидения, но и для многих других телекоммуникационных и информационных технологий.
УРОВНИ И ПРОФИЛИ MPEG-2
В табл. 4.4 показаны различные варианты телевизионных систем и методов кодирования телевизионных сигналов, предусмотренные стандартом MPEG-2. Четыре строки таблицы соответствуют четырем уровням пространственного разрешения:
- Low (352x280 элементов) - уровень телевидения пониженной четкости, используемый в видеотелефоне и технике телеконференций;
- Main (720x576 элементов) - уровень телевидения обычного разрешения;
- High-1440 (1440x1152 элементов) - уровень телевидения высокого разрешения с форматом экрана 4:3;
- High (1920x1152 элементов) - уровень телевидения высокого разрешения с форматом экрана 16:9.
Вертикальные столбцы таблицы соответствуют новой градации цифровых телевизионных систем - профилям. С переходом на; более высокие профили, т. е. при продвижении по таблице слева направо, увеличивается эффективность используемых методов кодирования, появляются новые свойства телевизионной системы, в том числе масштабируемость, но, естественно, усложняются аппаратура и алгоритмы обработки сигналов.
В клетках таблицы даны максимальные значения скорости передачи двоичных символов для вариантов стандарта. В трех нижних строках таблицы приведены дополнительные сведения о свойствах профилей, которые будут пояснены ниже.
Рассмотренный метод кодирования относится к главному' профилю (Main Profile). Как видно из таблицы, на главном уровне, , соответствующем телевидению обычного разрешения, скорость передачи двоичных символов в канале связи достигает 15 Мбит/с' Сравнив это значение с исходным значением 216 Мбит/с, соответствующей параллельному стыку по Рекомендации 601 МККР, видим, что осуществляется сжатие потока информации примерно в 15 раз.
На более высоких уровнях главного профиля, соответствующих телевидению высокого разрешения, скорость передачи двоичных символов в канале связи возрастает до 60 или 80 Мбит/с. Следует особо подчеркнуть, что для всех уровней разрешения данного профиля используются один и тот же набор методов кодирования.; В этом заключается совместимость разных уровней. На более высоких уровнях кодеры и декодеры должны иметь большее быстро-действие и больший объем ЗУ. Аппаратура более высоких уровней разрешения может работать на более низких уровнях разрешения.
Перейдем к рассмотрению других профилей стандарта MPEG-2. Простой профиль (Simple Profile) отличается от главного] профиля отсутствием В-кадров, что дает упрощение аппаратуры, но приводит к ухудшению качества изображения при той же скорости передачи двоичных символов. Данный профиль может использоваться для записи изображений на магнитные или лазерные диски и для других целей.
Высшие профили стандарта MPEG-2 характеризуются наличием масштабируемости, которая была рассмотрена ранее. Кроме того, на высших профилях возможно применение компонентного кодирования сигналов цветного телевидения с передачей цветоразностных сигналов не только через строку (4:2:0), но и в каждой строке (4:2:2).
Таким образом, в стандарте MPEG-2 даны параметры семейства цифровых телевизионных систем для разных применений и с разным качеством изображения, имеющих в своей основе сходные методы кодирования изображения. По этому стандарту могут создаваться не только системы ТВ-вещания, но и другие системы, предназначенные для передачи движущихся изображений в цифровой форме: телеконференции, интерактивный видеосервис и мультимедиа и т. д.
ОТЛИЧИЯ MPEG-1 И MPEG-2
Стандарт MPEG-2 является развитием и расширением стандарта MPEG-1. Поток видеоданных MPEG-2 содержит составляющие, которых нет в MPEG-1. По-видимому, наиболее важным отличием двух стандартов является наличие в MPEG-2 масштабируемости и всех связанных с ней особенностей.
В стандарте MPEG-1 нет принципиальных ограничений на размеры кодируемых изображений и на использование чересстрочной развертки по сравнению с MPEG-2. Тем не менее, MPEG-1 предназначен для сжатия движущихся изображений с прогрессивной разверткой, частотой кадров до 30 Гц, числом строк до 576 и числом элементов в строке до 720 в поток данных со скоростью передачи двоичных символов до 1856000 бит/с.
На практике же MPEG-1 обычно используется для сжатия движущихся изображений размером 360x240 элементов с прогрессивной разверткой (формат SIF). Такое сжатие позволяет записывать видеопрограммы с некоторой потерей четкости на компакт-диски и воспроизводить их на ПК, выполняя декодирование в реальном времени чисто программными средствами.
Группа MPEG начинала работу над стандартом MPEG-3, определяющим методы сжатия для телевидения высокой четкости (ТВЧ). Однако в процессе работ над стандартом MPEG-2 в него были включены уровни, соответствующие ТВЧ (см. табл.4.4), поэтому необходимость в стандарте MPEG-3 отпала (о неправильном использовании этого термина см. в конце раздела 4.2.2).
ИСКАЖЕНИЯ ИЗОБРАЖЕНИЙ ПРИ СЖАТИИ ПО СТАНДАРТАМ MPEG. ДОСТИЖИМЫЕ СТЕПЕНИ СЖАТИЯ
Далее приведен перечень характерных искажений изображений, возникающих в результате кодирования по стандартам MPEG-1 или MPEG-2 при достаточно больших степенях сжатия [17]. Автор рекомендует читателям самим посмотреть искажения при внутри-кадровом кодировании. Это можно сделать, например, с помощью популярной программы Adobe Photoshop, но диапазон сжатия с её помощью невелик Хорошо заметные искажения при сжатии в 20-50 раз можно получить с помощью "древней" программы Alchemy.
Искажения, создаваемые внутрикадровым кодированием^ (см. последнюю страницу обложки).
1. Заметность границ блоков (блокинг-эффект).
Так как соседние блоки кодируются и декодируются независимо друг от друга, то при больших степенях сжатия после квантования и деквантования в них могут получаться заметно различаю-, щиеся коэффициенты ДКП, соответствующие постоянным и низкочастотным составляющим. В результате изображения в соседних блоках могут сильно отличаться друг от друга по яркости, цвету, характеру деталей и текстуры.
2. Размытие изображения.
Наблюдается при большом коэффициенте сжатия изображения. Обусловлено ограничением либо полным обнулением коэффициентов ДКП, соответствующих высоким пространственным частотам, в результате чего мелкие детали изображения становятся размытыми или полностью пропадают.
3. Появление окантовок на резких переходах яркости изображения.
Этот эффект обусловлен значительными искажениями либо полным подавлением высокочастотных составляющих пространственного спектра.
4. Размытие цветов.
Имеет ту же причину, что и эффект окантовки на границах, но проявляется на участках изображения с резкими скачками в сигнале яркости.
5. Эффект ступенек.
Возникает как результат неправильного восстановления или передачи краев изображений внутри блока. Эффект проявляется,
как правило, при восстановлении изображения в увеличенном масштабе.
Искажения, создаваемые межкадровым кодированием
1. Ложные границы.
Наблюдаются при компенсации движения. Этот эффект является прямым следствием межкадрового кодирования видеосигнала.
2. Эффект "комаров".
Проявляется как флуктуации яркости или цветности в блоке на границе между движущимся объектом и фоном. Эффект возникает вследствие различной степени квантования ошибок предсказания от кадра к кадру.
3. Зернистый шум в стационарной области.
Проявляется как медленно движущиеся мерцающие шумы низкой интенсивности в областях, в которых имеется лишь малое движение либо движение отсутствует полностью.
4. Появление неправильных цветов в макроблоке по отношению к его исходным цветам и к цветам окружающей области.
5. Появление следов за движущимися объектами, которые могут сохраняться сравнительно долго.
Какие же степени сжатия реально достижимы при использовании MPEG-2? За исходную скорость передачи двоичных символов возьмем 216 Мбит/с, что соответствует Рекомендации 601 при формате дискретизации 4:2:2. При переходе к формату 4:2:0, который используется для телевизионного вещания "Main Profile / Main Level", скорость передачи двоичных символов сокращается до величины 162 Мбит/с, относительно которой и будем определять степень сжатия.
В технических журналах отмечалось, что на практике для получения студийного качества принятого изображения можно сжимать видеоинформацию до скорости передачи 9 Мбит/с, т. е. в 18 раз. Для получения качества изображения, сравнимого с обычным изображением по системе PAL - до 4...5 Мбит/с, т. е. в 30-40 раз. Качество изображения, сопоставимое с получаемым при воспроизведении видеозаписей стандарта VHS, достигается при сжатии до уровня около 1,5 Мбит/с, т. е. более чем в 100 раз.
4.2.2. Кодирование и декодирование звукового сопровождения в стандартах MPEG-1 и MPEG-2
Определим скорости передачи двоичных символов для сигналов звукового сопровождения в системе цифрового телевидения. Диапазон частот воспринимаемых человеком звуков приблизительно от 20 Гц до 20 кГц, поэтому частота дискретизации для обеспечения высококачественного звуковоспроизведения должна быть не менее 40 кГц. Так, при записи музыки на компакт-диски применяется частота дискретизации 44,1 кГц.
Далее, диапазон громкости передаваемых звуков следует выбрать не менее 90 дБ, чтобы иметь возможность воспроизводить с высокой точностью звучание хорошей музыки, например, симфонического оркестра в концертном зале. Для передачи такого диапазона громкости число уровней квантования должно быть не менее 32*10 для одной полярности сигнала. Поэтому число двоичных разрядов АЦП для квантования двуполярного звукового сигнал берется равным не менее 16, что дает не менее 65536 уровней квантования.
Таким образом, скорость передачи двоичных символов для звукового сигнала одного канала приблизительно равна 0,7 Мбит/с, а для стереофонического звука - 1,4 Мбит/с. Эти числа показывают, что в системе цифрового телевидения звуковую информацию также необходимо сжимать во много раз.
Методы сжатия звука, используемые в стандартах MPEG-1 и MPEG-2, основаны на учете свойств человеческого слуха и относятся к методам сжатия с частичной потерей информации. При : сжатии отбрасывается значительная часть информации, но качество воспроизводимого звука остается достаточно высоким. Следовательно, сжатие достигается в основном за счет уменьшения психофизиологической избыточности.
КОДИРУЕМЫЕ ЗВУКОВЫЕ СИГНАЛЫ. УРОВНИ (LAYERS)
В соответствии со стандартами MPEG-1 и MPEG-2 частота; дискретизации входных звуковых сигналов может принимать значения 48,0, 44,1 и 32,0 кГц. В MPEG-2 дополнительно предусмотрены значения 24,0, 22,05 и 16 кГц [7, 10]. MPEG-1 позволяет кодировать два звуковых сигнала, что дает стереофонический звук, a MPEG-2 - пять звуковых сигналов (левый, центральный, правый, левый тыловой и правый тыловой), что обеспечивает объемное звучание (Surround). Указанные дополнительные возможности MPEG-2 достигаются введением дополнительных составляющих, называемых расширениями (extension) в поток данных на выходе кодера. Помимо указанных выше, MPEG-2 предусматривает расширение для дополнительного канала низких звуковых частот (subwoofer) и расширение для многоязычного звукового сопровождения (до семи каналов).
В MPEG-1 и в MPEG-2 есть три уровня кодирования звуковой информации (Layer I, Layer II и Layer III), которые имеют общую основу, но различаются между собой сложностью применяемых средств обработки и достигаемой степенью сжатия, причем оба эти показателя растут с ростом номера уровня. Декодер более высокого уровня может декодировать поток данных, созданный кодером более низкого уровня, но не наоборот.
ОПЕРАЦИИ, ВЫПОЛНЯЕМЫЕ ПРИ КОДИРОВАНИИ
На структурной схема кодера звуковой информации, приведенной на рис. 4.8, показаны блок разложения на частотные поддиапазоны (РПд), блок квантования и кодирования (Кв. и Код.), блок формирования потока данных (ФПД) и блок психоакустической модели (ПАМ).
Входной цифровой звуковой сигнал разделяется на кадры (frame), каждый из которых кодируется и декодируется независимо от других кадров (Layer I и Layer II) или с учетом некоторых данных из предыдущих кадров (Layer III). Размер кадра 384 отсчета для Layer I и 1152 отсчета для Layer II и Layer III.
В MPEG-1 и MPEG-2 используется кодирование звуковых сигналов с разложением на частотные поддиапазоны (общие сведения о таком методе кодирования см. в § 3.3). Число частотных поддиапазонов равно 32. Все поддиапазоны имеют одинаковую; ширину, которая зависит от частоты дискретизации входного сигнала. После разделения частота дискретизации уменьшается в 32 раза, так что число отсчетов в кадре в каждом поддиапазоне равно 12 для Layer I и 36 для Layer II и Layer III.
На всех уровнях разделение на поддиапазоны выполняется блоком цифровых фильтров. На уровне Layer III после фильтрации применяется модифицированное дискретное косинусное преобразование (МДКП). Отличия МДКП от обычного ДКП здесь не рассматриваются. Сочетание обычных фильтров и МДКП называется) блоком гибридной фильтрации (hibrid filterbank). В результате! МДКП в каждом поддиапазоне каждого кадра выделяются 18 частотных составляющих, представляемых коэффициентами МДКП, которые обрабатываются. Некоторые параметры выполнения МДКП и обработки получаемых коэффициентов могут изменяться в зависимости от свойств сигнала. Это позволяет уменьшить искажения, возникающие при разложении на поддиапазоны и дискретизации.
Затем выполняется квантование данных. Предварительно определяются масштабные множители (scalefactor). Для уровней Layer I и Layer II масштабный множитель зависит от максимального значения сигнала. При этом для Layer I масштабный множитель определяется для каждого поддиапазона в кадре, т. е. для 12 отсчетов сигнала поддиапазона. Для Layer II масштабные множители определяются для групп по 12 отсчетов в каждом поддиапазоне, причем множитель может быть общим для двух или трех групп. Таким образом, для каждого поддиапазона в кадре определяется до трех масштабных множителей. Перед квантованием значения сигнала делятся на соответствующие масштабные множители.
Затем в блоке квантования и кодирования выполняется квантование данных. В основе сжатия звуковой информации на уровнях Layer I и Layer II лежит метод, называемый адаптивным распределением битов (adaptive bit allocation). Этот метод заключается, в выполнении квантования с различным числом двоичных разрядов квантования для разных частотных поддиапазонов. При этом используется равномерное квантование. Полное число битов, выделяемых на все поддиапазоны в данном кадре, зависит от частоты дискретизации входного сигнала и от заданной выходной скорости
передачи двоичных символов, т. е. от требуемой степени сжатия звуковой информации. Распределение битов по поддиапазонам осуществляется блоком ПАМ (см. ниже).
На уровне Layer III данными, подлежащими квантованию, являются не отсчеты сигналов поддиапазонов, а коэффициенты МДКП. В каждом поддиапазоне эти коэффициенты разделяются на блоки (scalefactor bands), для каждого из которых определяется масштабный множитель, на который делятся коэффициенты данного блока. Далее производится квантование по неравномерному закону. Разделение коэффициентов на блоки, выбор множителей и параметров квантования осуществляется блоком ПАМ так, чтобы минимизировать заметность искажений звука, создаваемых квантованием. Подробнее о преимуществах, достигаемых на уровне Layer III, будет сказано ниже.
После квантования на уровнях Layer II и Layer III выполняется кодирование полученных данных (на уровне Layer I дополнительное кодирование результатов квантования не производится).
На уровне Layer II квантованные отсчеты сигнала в каждом поддиапазоне объединяются по три, и полученные последовательности битов кодируются с использованием таблиц кодов с переменной длиной. Кроме того, на этом уровне кодируются с помощью соответствующих таблиц данные о распределении битов по поддиапазонам и данные о масштабных множителях.
На уровне Layer III квантованные коэффициенты МДКП кодируются по Хаффмену с использованием одной из 18 предусмотренных в стандартах таблиц кодирования. Выбор таблицы осуществляется под управлением ПАМ. Значительное сжатие данных в результате кодирования основано на том, что после квантования многие коэффициенты МДКП становятся малыми величинами или нулями (это напоминает метод кодирования, использованный в JPEG).
Кроме того, на уровне Layer III кодируются с использованием соответствующих таблиц данные о масштабных множителях, о разделении частотных поддиапазонов на блоки и т.д.
ПСИХОАКУСТИЧЕСКАЯ МОДЕЛЬ
Блок психоакустической модели (ПАМ) управляет квантованием и кодированием, определяя параметры выполняемых при этом операций так, чтобы обеспечить наименьшую заметность искажений, создаваемых квантованием (шумов квантования). В стандартах MPEG-1, MPEG-2 предусмотрены два варианта ПАМ, отличающиеся числовыми параметрами.
Одним из факторов, учитываемых в ПАМ, является различная чувствительность слуха на разных частотах. Наибольшая чувствительность характерна для частот 2...4 кГц, поэтому для поддиапазонов, попадающих в эту область, необходимо выделять больше битов, чтобы обеспечить более точное квантование. Ближе к обоим концам диапазона слышимых частот чувствительность слуха уменьшается, поэтому для соответствующих частотных поддиапазонов можно выделять меньше битов, т. е. осуществлять более грубое квантование.
Кроме того, алгоритм работы ПАМ учитывает явление маскирования (или маскировки) одних звуков другими. Громкие звуки маскируют имеющиеся одновременно с ними более тихие звуки в других частотных поддиапазонах, причем чем дальше по частоте отстоит маскируемый тихий звук от маскирующего громкого звука, тем слабее сказывается эффект маскирования. Например, если маскирующий звук имеет частоту 1000 Гц, а маскируемый звук -1100 Гц, то последний не будет слышен, если разница в уровнях ; громкости составляет не менее 18 дБ. Если же маскируемый звук имеет частоту 2000 Гц, то для полной маскировки необходима разница уровней громкости не менее 45 дБ. Помимо этого, громкий звук маскирует звуки, следующие за ним в интервале времени до 100 мс, и даже звуки, опережающие его на 4...5 мс.
Чтобы выполнить распределение битов в блоке ПАМ анализируется спектр исходного звукового сигнала (не разложенного на поддиапазоны). Для этого производится быстрое преобразование Фурье участков этого сигнала по 512 (Layer I) или по 1024 (Layer II и Layer III) отсчетов, после чего вычисляются спектр мощности звукового сигнала и величины звукового давления в каждом частотном поддиапазоне.
Затем анализируются тональные (синусоидальные) и нетональные составляющие звукового сигнала, определяются локальные и глобальный пороги маскировки и вычисляются отношения сигнал/маскирующий сигнал для всех поддиапазонов, на основании которых производится распределение битов по поддиапазонам (Layer I и Layer II) или выбор параметров обработки коэффициентов МДКП (Layer III).
В тех поддиапазонах, в которых искажения звука, вызываемые квантованием, менее заметны для слушателя или маскируются большим уровнем сигнала в других поддиапазонах, квантование делается более грубым, т. е. для этих поддиапазонов выделяется меньше битов. Для полностью маскируемых поддиапазонов битов совсем не выделяется. Благодаря этому удается существенно уменьшить количество передаваемой информации при сохранении достаточно высокого качества звука.
Как уже отмечалось, ширина поддиапазонов одинакова. Например, если частота дискретизации равна 44,1 кГц, то каждый поддиапазон имеет ширину 690 Гц. В то же время ширина диапазона частот, в котором маскирование сказывается одинаково (критического диапазона - critical band) зависит от положения этого диапазона на оси частот. На частотах порядка 100 Гц ширина критического диапазона около 50 Гц, а на частотах порядка 10 кГц почти 1,5 кГц. Поэтому разделение сигнала на одинаковые частотные поддиапазоны неоптимально с точки зрения получения наилучшего качества звука, хотя и наиболее удобно для реализации.
На уровне Layer III сигнал каждого поддиапазона проходит МДКП, каждый коэффициент которого представляет частотную составляющую. Всего таких составляющих 18 в каждом поддиапазоне. Шаг по оси частот, таким образом, уменьшается в 18 раз, т. е. до примерно 38 Гц при частоте дискретизации 44,1 кГц. Это меньше ширины самого узкого критического диапазона. В пределах одного частотного поддиапазона блоки коэффициентов МДКП (scalefactor bands) могут квантоваться по-разному, что позволяет более точно учесть маскирование на разных частотах. Это позволяет говорить об увеличении разрешения по частоте в 18 раз, достигаемом на Layer III.
СТРУКТУРА ПОТОКА ДАННЫХ ЗВУКОВЫХ СИГНАЛОВ
Формирование потока данных осуществляется в блоке ФПД (рис. 4.8). Самой крупной структурной единицей потока данных является звуковая последовательность (Audio Sequence), которая состоит из произвольного числа кадров и не имеет собственного заголовка.
Кадр начинается с заголовка, структура которого одинакова для MPEG-1 и MPEG-2. Заголовок содержит синхрослово, данные об уровне кодирования, о частоте дискретизации кодируемых звуковых сигналов, о скорости передачи двоичных символов в потоке данных, о режиме кодирования (стерео, два независимых сигнала и т.д.) и другую информацию.
Далее в кадре следует область звуковых данных, в которой сначала следуют данные для контроля ошибок, затем данные о распределении бит, о масштабных множителях и, наконец, кодированные данные о сигналах по частотным поддиапазонам.
При использовании MPEG-2 далее может следовать расширение, содержащее данные дополнительных звуковых каналов.
ДЕКОДИРОВАНИЕ ЗВУКОВОЙ ИНФОРМАЦИИ
Структурная схема декодера приведена на рис. 4.9. Входные данные поступают на блок распаковки потока данных (РпПД), в котором по синхрословам выделяются отдельные кадры, поступающие затем на блок декодирования и деквантования (КодГ-1 и КвГ-1).
Данные, содержащиеся в кадре, декодируются в соответствии с порядком их следования и таблицами кодов, которые содержатся в программе работы декодера. Декодированные данные о распределении битов и о масштабных множителях используются для декодирования и деквантования звуковых данных. После де-квантования на уровнях Layer I и Layer II отсчеты сигналов поддиапазонов умножаются на соответствующие масштабные множители. На уровне Layer III выполняется обратное МДКП.
После декодирования и деквантования отсчеты сигналов всех поддиапазонов объединяются в выходной цифровой звуковой сигнал, или несколько сигналов, если звук многоканальный.
Аппаратные и программные реализации декодера значительно проще, чем реализации кодера, так как в декодере не требуется психоакустическая модель. Так декодирование стереофонического звука, сжатого с применением уровня Layer III, производится в реальном времени программными средствами на обычном ПК, в то время как для выполнения соответствующего кодирования необходимо сначала записать звуковой сигнал в несжатом виде в файл, а затем осуществить сжатие, что занимает существенно большее время, чем воспроизведение.
КОДИРОВАНИЕ МНОГОКАНАЛЬНОГО ЗВУКОВОГО СОПРОВОЖДЕНИЯ
Стандарт MPEG-1 допускает четыре режима кодирования:
- обычный (независимый) стереофонический режим (stereo), к котором сигналы двух каналов кодируются независимо друг от друга;
- соединенный стереофонический режим (joint_stereo), в котором для увеличения степени сжатия кодируются, например, не сами сигналы левого и правого каналов, а их сумма и разность;
- два совершенно независимых звуковых сигнала dual_channel);
- один звуковой сигнал (single_channel). Особенности этих режимов здесь не рассматриваются. Стандарт MPEG-2 дает возможность кодировать до пяти каналов звука: L — левый, R — правый, С — центральный, LS — левый тыловой и RS - правый тыловой. При этом возможны варианты, отличающиеся числом кодируемых каналов и расположением источников звука в пространстве, например, два передних канала и ва тыловых, три передних и один тыловой и т.д. Возможно также расширение для кодирование отдельного канала НЧ эффектов.
Возможны два варианта совместимости с MPEG-1. Как указывалось выше, каждый кадр в потоке данных MPEG-2 состоит из основной части, которая может декодироваться декодерами MPEG-1, и расширений, которые декодерами MPEG-1 не воспринимаются. Обозначим L0 и R0 сигналы, данные которых помещаются в основные части кадров в потоке данных.
В соответствии с первым вариантом перед кодированием выполняются операции, называемые матрицированием
L0 = L + х*С + y*LS, R0 = R + x*C + z*RS, (4.2)
гдe x, у, z - постоянные коэффициенты. При декодировании декодером MPEG-2 выполняются обратные операции (дематрйцированиe). Такой вариант называется "совместимым назад" (backwards compatibility). При использовании декодеров MPEG-1 этот вариант обеспечит в воспроизводимых сигналах левого и правого каналов наличие информации о центральном и тыловых каналах, т. е. звуковоспроизведение будет более полным. Однако операции матрицирования и дематрицирования вносят дополнительные шумы.
В соответствии со вторым вариантом матрицирование и, естественно, дематрицирование не выполняются. При этом L0 = L, R0 = R. Такой вариант называется "несовместимым назад" (nonbackward compatible - NBC), д обеспечивает несколько лучшее качество звука при использовании декодеров MPEG-2.
Для увеличения степени сжатия многоканального звука в MPEG-2 предусмотрено использование адаптивного кодирования с предсказанием сигналов каналов, данные о которых помещаются в расширения кадров, а также некоторые другие средства уменьшения межканальной избыточности звуковой информации.
ДОСТИЖИМОЕ СЖАТИЕ И КАЧЕСТВО ЗВУКА
Для MPEG-1 и для MPEG-2 в случае отсутствия расширенй потоки сжатых звуковых данных имеют следующие диапазоны значений скорости передачи двоичных символов:
- Layer I - 32...448 кбит/с (обычно 192 кбит/с на канал);
- Layer II - 32...384 кбит/с (обычно 128 кбит/с на канал);
- Layer III - 32...320 кбит/с (обычно 64 кбит/с на канал).
В случае кодирования по стандарту MPEG-2 звуковых сигналов с частотами дискретизации 16, 22,05 и 24 кГц минимальные и максимальные значения скорости передачи двоичных символов уменьшаются в два и более раз, причем самая минимальная скорость передачи равна 8 кбит/с. Если же кодируется многоканальный звук, и выходной поток данных содержит соответствующие расширения, то максимальные значения скорости передачи двоичных символов в MPEG-2 увеличиваются до примерно 1000 кбит/с.
Кодер вносит задержку в распространение данных, так как во-первых при выполнении операций кодирования требуется иметь в ЗУ кодера определенное число последних отсчетов звукового сигнала, а во-вторых выполнение требуемых вычислительных операций над этими отсчетами занимает некоторое время. Минимальные длительности задержек для Layer I-50 мс, для Layer II -100 мс, для Layer III - 150 мс, однако задержки в реальных кодерах могут быть значительно больше.
При одной и той же скорости передачи двоичных символов в выходном потоке данных кодирование более высокого уровня обеспечивает более высокое качество воспроизводимого звука. Это обусловлено тем, что более точно учитываются свойства сжимаемого сигнала, более гибко изменяются параметры квантования, а на уровне Layer III значительно повышается разрешающая способность по частоте. Значения, указанные в скобках как обычные, соответствуют качеству звука, сопоставимому с качеством звучания обычных (записанных без сжатия) компакт-дисков.
Уровень кодирования Layer III обеспечивает сжатие до 64 кбит/с на канал, т. е. примерно в 11-12 раз. Этот уровень используется при записи получивших широкое распространение компьютерных музыкальных дисков, обеспечивающих при воспроизведении с помощью ПК 10... 11 часов высококачественного звука. Записанные файлы со сжатой звуковой информацией обычно имеют расширение "mpЗ", а на дисках или их упаковках часто написано "MPEG-3", что, как следует из изложенного, неправильно.
4.2.3. Системный уровень MPEG-2
Перейдем к рассмотрению системной части стандарта MPEG-2, которая описывает форматы мультиплексированных потоков данных, объединяющих сжатые видеоданные и данные звукового сопровождения от одного или нескольких источников, а также включающих другие виды информации [5, 8].
Стандартом предусмотрено два вида таких мультиплексированных потоков: транспортный поток (Transport Stream - TS) и программный поток (Program Stream).
На рис. 4.10. показана структурная схема процесса формирования транспортного потока. Видеосигналы, т. е. яркостный и цветоразностные сигналы данной телевизионной программы, а также сигналы одного или нескольких каналов звукового сопровождения данной программы преобразуются в цифровую форму в АЦП и кодируются в соответствующих кодерах, как это было описано выше. Потоки данных на выходах кодеров называются элементарными потоками (ES - Elementary Stream).
В блоках, называемых пакетизаторами, данные разделяются на пакеты - блоки данных, начинающиеся с заголовков определенной структуры. Получающиеся потоки называются пакетизированными элементарными потоками (PES). В каждом пакете в PES объединены данные, относящиеся к структурной единице входного сигнала, например к телевизионному кадру или к кадру сжатого звукового сигнала. Размеры пакетов PES могут быть разными.
Пакетизированные элементарные потоки нескольких телевизионных программ, а также передаваемых дополнительных данных и сигналов управления объединяются в единый транспортный поток (TS - Transport Stream). При этом данные перераспределяются в пакеты TS, имеющие фиксированную длину 188 байт и определенную структуру заголовка (стартовой синхрогруппы пакета), занимающего 4 байта. Следует отметить, что транспортный поток может содержать и всего один элементарный поток, но фиксированная длина пакетов TS сохраняется. Далее транспортный поток проходит кодер канала (на рис. 4.10 не показан), в котором выполняется помехоустойчивое кодирование, и передается по каналу связи.
Каждый пакет TS начинается с идентификатора пакета (PID), который определяет его тип и принадлежность находящихся в нем данных к одному из передаваемых элементарных потоков. Каждый пакет может содержать данные только одного элементарного потока. Пакеты с данными разных элементарных потоков передаются в транспортном потоке в произвольном порядке.
Специальные пакеты типов PAT (Program Association Table) и PMT (Program Map Table) несут информацию о том, какие значения идентификаторов соответствуют тому или иному элементарному потоку. В особых пакетах в среднем 10 раз в секунду передаются летки времени (PCR - Program Clock Reference), содержащие зна-1ения моментов времени по часам в передающей части системы. 1о этим меткам в декодирующей аппаратуре восстанавливаются актовые частоты каждого отдельного элементарного потока, которые между собой, вообще говоря, не синхронизированы, хотя и имеют стандартное значение 27 МГц ± 1350 Гц.
Структурная схема приема и декодирования транспортного потока приведена на рис. 4.11. На вход поступает поток данных из канала связи, который преобразуется декодером канала в транспортный поток TS. В блоке декодирования и демультиплексирования (Декодер и ДМп TS) из транспортного потока извлекаются пакеты PAT и РМТ, из которых получают идентификаторы пакетов, содержащих данные требуемых элементарных потоков. Далее пакеты с такими идентификаторами извлекаются из транспортного потока, распаковываются, и из содержащихся в них данных формируются элементарные потоки видео и звуковой информации, поступающие на соответствующие декодеры.
В блоке синхронизации (Синхр.) имеются генераторы тактовых импульсов для видео и звукового декодеров. Подстройка частот этих генераторов производится по меткам времени PCR так, чтобы число тактовых импульсов, сформированных в декодере между двумя метками, соответствовало интервалу между моментами, зафиксированными в этих метках. Благодаря этому обеспечиваются правильные длительности интервалов времени в декодируемой телевизионной программе. Если одновременно должны декодироваться несколько элементарных потоков с разными временными базами (несколько независимых телевизионных программ), то эти потоки приводятся к одной временной базе.
Программный поток MPEG-2 аналогичен системному уровню стандарта MPEG-1 и содержит элементарные потоки одной телевизионной программы или нескольких программ, имеющих общую временную базу, т. е. взаимно синхронизированных. Длины пакетов программного потока могут быть различными. Структурные схемы формирования и приема программного потока похожи на приведенные выше схемы для транспортного потока. Программный поток может быть преобразован в транспортный поток. Возможно и обратное преобразование.
Транспортный поток рекомендуется использовать при передаче по каналам связи с помехами, а программный поток - при отсутствии помех.
Следует также отметить, что синтаксис транспортного и программного потоков позволяет обеспечивать условный (ограниченный, по паролю) доступ к передаваемой информации, хотя непосредственно в стандарте MPEG-2 средства решения этой задачи не определены.
Сжатые по стандартам MPEG-1, MPEG-2 видео- и аудиоданные могут также записываться в файлы. Видеопрограммы, сжатые по MPEG-1, записываются на компьютерные видеодиски, а сжатые по MPEG-2 - на диски DVD.
4.3. Стандарт кодирования видео- и звуковой информации MPEG-4
Новым проектом группы MPEG является стандарт MPEG-4. Работы по этому проекту были начаты в июле 1993 г. Рабочий проект был закончен в ноябре 1996 г. и согласован на уровне Комитета Международной организации по стандартизации в ноябре 1997 г. Большинство документов, входящих в стандарт MPEG-4, были приняты в конце 1998 - начале 1999 годов [15]. В 1999 г. появилась вторая версия MPEG-4.
Стандарт MPEG-4 охватывает следующие области:
- цифровое телевидение и видеосвязь;
- интерактивную графику, синтез изображений;
- интерактивные мультимедийные приложения, в том числе передаваемые через Интернет.
Стандарт MPEG-4 позволяет передавать видео- и звуковую информацию с очень большими коэффициентами сжатия по узкополосным каналам связи, что необходимо как в системах видеосвязи при использовании обычных телефонных сетей и относительно низкоскоростных цифровых каналов (64 кбит/с), так и для передачи движущихся изображений и звукового сопровождения через Интернет. Кроме того, новый стандарт обеспечивает интерактивность, т. е. возможность для пользователя управлять процессом передачи ему информации путем запросов, выбора вариантов и других действий. Таким образом, стандарт MPEG-4 является важным шагом на пути к интерактивному телевидению будущего.
ОБЪЕКТЫ И СЦЕНЫ
Важнейшей особенностью MPEG-4 является объектно-ориентированный подход, сущность которого заключается в том, что передаваемое изображение со звуковым сопровождением представляется как совокупность видео- и аудио- объектов.
Видеообъектами (VO - visual object) могут быть изображения людей и предметов, перемещающихся перед неподвижным фоном, и сам неподвижный фон. Обычное телевизионное изображение может быть единым видеообъектом.
Аудиообъектами (АО - audio object) могут быть голоса людей, музыка, другие звуки. Связанные видео- и аудиообъекты, например, изображение человека и его голос, образуют аудио-визуальный объект (AVOs - audio-visual object). Видео- и аудиообъекты составляют сцену. MPEG-4 содержит специальный язык для описания сцен - BIFS (Binary Format for Scenes - двоичный формат для сцен).
Описание сцены имеет иерархическую структуру. На рис. 4.12 приведен пример структуры описания сцены, в которой Шерлок Холмс и доктор Ватсон беседуют в комнате на Бейкер-стрит. Верхним уровнем структуры является сцена в целом. Она содержит неподвижный фон, образованный изображениями стен, мебели и т.д. В сцене присутствуют два персонажа, каждый из которых является аудио-визуальным объектом, включающим видеообъект -движущееся изображение персонажа, и аудиообъект - голос этого персонажа. Кроме того, в сцене присутствует камин, который также является аудио-визуальным объектом, включающим видеообъект изображение непрерывно движущегося огня, и аудиообъект звуки, исходящие от камина.
Описание каждой сцены включает данные о координатах объектов в пространстве и об их привязке ко времени. Видеообъекты могут размещаться в разных плоскостях видеообъектов (VOP -video object plane), так что видеообъекты, находящиеся в более близких к зрителю плоскостях сцены перекрывают при движении видеообъекты, находящиеся в более дальних плоскостях.
Сцена, представляемая пользователю, может содержать все объекты, информация о которых поступает в принимаемом потоке данных, или только часть этих объектов. Состав сцены может определяться поставщиком мультимедийной продукции, например в зависимости от суммы денег, заплаченных пользователем. В интерактивном режиме пользователь может влиять на развитие сцены, подавая соответствующие команды. MPEG-4 позволяет также передавать пользователю дополнительную информацию об объектах, которая может отображаться, например, в виде окна с текстом появляющегося, когда пользователь выбрал с помощью "мышки"; какой-либо объект в сцене.
Ясно, что для реализации интерактивных возможностей: MPEG-4 необходим не обычный телевизор, а ПК, подключенный к Интернет.
КОДИРОВАНИЕ ВИДЕООБЪЕКТОВ
В отличие от MPEG-1, MPEG-2 в которых применяется фиксированный алгоритм кодирования, в MPEG-4 используется целый набор методов кодирования, включающий как алгоритмы, сходные с применяемым в MPEG-1, MPEG-2, так и принципиально новые
методы кодирования, основанные на понятии видеообъекта. Выбор того или иного метода кодирования в конкретном случае определяется характером изображения и требуемым коэффициентом сжатия информации. MPEG-4 позволяет эффективно сжимать как натуральные, так и синтетические изображения и объединять их при воспроизведении.
Обобщенная структурная схема видеокодера MPEG-4 для натуральных изображений приведена на рис. 4.13. На схеме обозначены ДКП - блок прямого дискретного косинусного преобразования; ДКП-1 - блок обратного дискретного косинусного преобразования; Кв - квантователь; Кв-1 - деквантователь, т. е. блок, выполняющий обратную квантованию операцию; ЗУ - запоминающее устройство; Пред. 1, Пред.2 - блоки, выполняющие формирование предсказанных изображений в разных режимах кодирования; ОД - блок оценки движения и формирования векторов движения; Мп - мультиплексор; БЗУ - буферное запоминающее устройство; УКС - блок управления коэффициентом сжатия изображения. Кроме того, на схеме показаны блоки "Кодер формы" и "Кодер текстур", сумматор, вычитающее устройство и переключатель "Выбор", с помощью которого осуществляется подключение одного из блоков предсказания в зависимости от используемого метода кодирования. Данная схема является упрощенной и не показывает многие блоки и связи.
На вход кодера поступают исходные видеоданные, например, цифровой телевизионный сигнал. На выходе кодера формируется ; элементарный поток видеоданных.
Кратко рассмотрим основные методы кодирования натуральных изображений.
1. Видеообъекты, представляющие собой прямоугольные i изображения (например, обычные ТВ кадры), кодируются методом, аналогичным применяемому в MPEG-1, MPEG-2, т. е. с использованием гибридного кодирования (см. § 4.2). Метод включает предсказание с оценкой и компенсацией движения для макроблоков 16x16 пикселов и ДКП ошибки предсказания в блоках 8x8 пикселов. Для определенности будем считать, что предсказание в этом случае выполняется в блоке Пред.1. Связь выхода блока ОД с мультиплексором и средства управления коэффициентом сжатия на рис. 4.13 не показаны.
Этот вид кодирования имеет два уровня по скорости передачи двоичных символов в выходном потоке данных.
Уровень очень низкой скорости передачи VLBV (Very Low Bitrate Video) предназначен для передачи изображений с низким пространственным разрешением (форматы QCIF и SQCIF) и пониженной частотой кадров (10... 15 Гц) по узкополосным каналам связи со скоростями передачи двоичных символов 5...64 кбит/с. Этот уровень может использоваться в видеотелефонной связи с невысоким качеством изображения.
Уровень высокой скорости передачи (High bitrate) предназначен для передачи изображений с более высоким пространственным разрешением, вплоть до формата по Рекомендации 601, по различным каналам связи со скоростями передачи двоичных символов 64 кбит/с... 10 Мбит/с. Этот уровень может использоваться в видеосвязи с высоким качеством изображения и для передачи телевизионных программ.
2. Кодирование, основанное на содержании (content-based coding), позволяет получить существенно большее сжатие изображений за счет учета свойств видеообъектов, присутствующих в сцене.
Одной из возможностей, создаваемых этими методами, является кодирование видеообъектов сложной формы. Например, в качестве видеообъекта может быть взята область изображения, отличающаяся от окружения яркостью или цветом. Эта область может перемещаться и деформироваться. При формировании предсказанного изображения с компенсацией движения смещаются не прямоугольные макроблоки, а выделенные области, которые к тому же могут изменять свою форму. При этом ошибка предсказания оказывается значительно меньше, и объем информации, содержащейся в разности предсказанного и настоящего изображений очередного кадра, существенно уменьшается. В кодере, показанном на рис. 4.13, такой вариант предсказания выполняется в блоке Пред.2.
В то же время, вместо векторов движения, показывающих перемещение прямоугольного макроблока как целого, необходимо передать параметры, характеризующие изменения координат и формы видеообъекта. Эти параметры определяются и кодируются в Кодере формы, после чего они включаются через мультиплексор Мп в выходной поток данных.
Данные о форме видеообъекта занимают значительно больше двоичных символов, чем простой вектор движения. Например, если граница области, выделенной как видеообъект, аппроксимируется многоугольником, то для описания смещения и деформации этой области необходимо передать изменения координат всех углов многоугольника. Тем не менее, общий выигрыш в уменьшении объема передаваемой информации по сравнению с MPEG-1, MPEG-2 оказывается существенным.
3. Для сжатия изображений неподвижного фона и текстур протяженных объектов используется метод кодирования, основанный на вэйвлет-преобразовании (см. § 3.3). Этот метод обеспечивает высокие степени сжатия и многоступенчатую масштабируемость по пространственному разрешению.
Перейдем к методам кодирования синтетических видеообъектов, создаваемых с использованием средств машинной графики. Такие видеообъекты могут кодироваться рассмотренными выше методами для натуральных изображений. Однако значительно эффективнее использовать их параметрическое описание.
В стандарте MPEG-4 используется модель человеческого лица, построенная на основе сетки из треугольных ячеек, которые заполняются текстурой. Пример "сеточной" модели лица показан на передней обложке данной книги. Имеется также трехмерная модель человеческого тела в виде трехмерной сетки. Двумерные изображения человека получаются путем построения проекции трехмерной модели на нужную плоскость.
Форма, текстура и выражение лица в статике описываются параметрами FDP (Facial Definition Parameters), а в динамике - параметрами FAP (Facial Animation Parameters). Для тела в статике задаются параметры BDP (Body Definition Parameters), а в динамике > - ВАР (Body Animation Parameters). Статические параметры FDP и BDP передаются в начале сеанса связи. Для воспроизведения мимики лица и движений тела собеседника в процессе разговора передаются динамические параметры FAP и ВАР.
Синтетические изображения лица и тела человека могут использоваться в системах видеосвязи вместо настоящих изображений собеседника. Передача параметров модели требует существенно меньшей скорости передачи двоичных символов, чем передача реального изображения.
В некоторых случаях можно в приемной части системы получить информацию об изменениях изображения объекта на основе другой информации. Такой случай характерен для передачи изображения лица говорящего человека. Движения рта и мимика во многом определяются произносимыми словами и могут быть синтезированы на основе принятого звукового сигнала, содержащего голос собеседника. При этом требуемая для осуществления видеосвязи скорость передачи двоичных символов еще уменьшается.
Помимо лица и тела могут синтезироваться произвольные двумерные изображения также в виде сеток с треугольными ячейками, заполняемыми текстурой.
Стандартом MPEG-4 обеспечивается многоуровневая масштабируемость по пространственному разрешению, по времени и по качеству изображения. В стандарте предусмотрены средства, обеспечивающие работоспособность системы передачи видеоинформации при наличии помех и ошибок в канале связи. Эти вопросы здесь подробно не рассматриваются.
КОДИРОВАНИЕ АУДИООБЪЕКТОВ
Кодирование звуковой информации в MPEG-4 также может осуществляться разными способами, дающими различные объемы передаваемых данных и различное качество звука на выходе системы. Предусмотрено три уровня кодирования.
1. Кодирование музыки с обеспечением высокого и среднего качества выполняется тем же методом, что и в стандарте MPEG-2.
При этом обеспечивается передача до восьми каналов звука при скорости передачи двоичных символов 16...64 кбит/с на канал.
2. Для передачи речи с высоким и средним качеством используется метод кодирования CELP (Code Excited Linear Predictive - кодирование возбуждений с линейным предсказанием), который обеспечивает скорости передачи 6...24 кбит/с при частотах дискретизации 8 кГц или 16 кГц.
3. Параметрическое кодирование речи, которое обеспечивает сжатие при сохранении разборчивости до скоростей 2...4 кбит/с при частоте дискретизации 8 кГц.
Самые низкие скорости передачи 0,2... 1,2 кбит/с достигаются для искусственно синтезированной речи и синтезированной в соответствии со стандартом MIDI музыки.
Кодирование аудиообъектов также обладает свойством масштабируемости. Например, на основном уровне потока данных может использоваться метод кодирования CELP, а дополнительный уровень обеспечивает качество звука, соответствующее кодированию по MPEG-2. Более сложный и дорогой декодер может декодировать основной и дополнительные слои потока данных и позволяет получать более высокое качество воспроизводимого звука, чем более простой и дешевый декодер, воспринимающий только основной уровень потока данных.
ПЕРЕДАЧА ДАННЫХ
Структурная схема формирования передаваемых потоков данных в стандарте MPEG-4 приведена на рис. 4.14. Элементарные потоки ES (Elementary Streams) с видео- и аудиокодеров поступают на уровень синхронизации (SL - Sync Layer) и в блоках SL преобразуются в пакетизированные SL-потоки (SL-packetized Streams), в которые введены метки времени и данные о тактовых частотах. Это позволяет привязать к единой шкале времени различные видео- и аудиообъекты. Далее пакетизированные SL-потоки поступают на уровень DMIF (DMIF Layer).
DMIF (Delivery Multimedia Integration Framework - интегрированная система доставки мультимедиа) - это протокол, обеспечивающий управление потоками данных для мультимедиа. Как всякий протокол передачи данных (например, протоколы, используемые в Интернет), DMIF обеспечивает посылку запросов от пользователя к источнику информации и пересылку запрошенных данных пользователю. Кроме того, DMIF дает пользователю средства управления в виде интерфейса пользователя DMIF-Application Interface (DAI), позволяя подавать команды для выбора информации (например, фильма) и формируя сообщения о получении доступа к этой информации или о возникших при этом трудностях.
DMIF охватывает три основные сферы применения MPEG-4: передачу по интерактивным сетям (Интернет), передачу по обычным вещательным каналам и запись видеопрограмм на компакт-диски.
На уровне DMIF возможно объединение в блоках FlexMux пакетизированных SL-потоков во FlexMux потоки (FlexMux Streams). Эта операция является необязательной, так как под управлением DMIF могут передаваться и пакетизированные SL-потоки.
Затем данные переходят на уровень TransMux (TransMux Layer), где FlexMux-потоки или SL-потоки объединяются и преобразуются в транспортный поток. Общее название транспортного потока TransMux Stream. В стандарте MPEG-4 этот поток не определен. В качестве его может использоваться, например, транспортный поток (TS) MPEG-2, который был описан в разделе 4.2.3. Еще один вариант TransMux потока - запись в файл. Возможно использование других транспортных протоколов, которые здесь не рассматриваются.
До сих пор речь шла о нисходящем (downstream) потоке, который несет данные от источников видеопрограмм к зрителям. Для реализации интерактивного телевидения и различных видов мультимедийного сервиса необходима передача информации от зрителя на головную станцию системы. Для этого передается восходящий поток данных (upstream), скорость передачи двоичных символов в котором обычно значительно меньше, чем в нисходящем потоке.
ДЕКОДИРОВАНИЕ И ВОСПРОИЗВЕДЕНИЕ
Структурная схема декодирующей части системы по стандарту MPEG-4 приведена на рис. 4.15. На схеме показаны демультиплексор ДМп, буферные ЗУ БЗУ1 и БЗУ2, декодеры ДКд и блок объединения БОб.
На вход поступает транспортный поток TransMux Stream, из которого в демультиплексоре выделяются элементарные потоки, данные каждого из которых записываются в соответствующее БЗУ1. Назначение БЗУ1 - накапливать неравномерно поступающие по каналу связи данные и по мере надобности передавать их на декодер.
Далее выполняется декодирование элементарных потоков. Получаемые при этом данные видео- и аудиообъектов записываются в БЗУ2. Элементарные потоки, относящиеся к одному объекту, могут декодироваться совместно.
При демультиплексировании из общего потока данных выделяются также описание сцены и метки времени, поступающие на 1 блок объединения. Данные отдельных объектов считываются из соответствующих БЗУ2 и из них в блоке объединения формируются цифровые сигналы изображения и звука, поступающие далее на воспроизводящие устройства (на рис. 4.15 не показаны). При этом обеспечивается синхронизация всех видео- и аудиообъектов.
4.4. Другие стандарты кодирования видео и звуковом информации
В этом разделе дается краткий обзор некоторых стандартом кодирования видео и звуковой информации, применяемых в системах видеосвязи и ряде других областей.
РЕКОМЕНДАЦИИ Н.261, Н.262, Н.263
Рекомендация ITU-T H.261, принятая в 1993 г., определяет методы кодирования и декодирования видеосигналов для передачи по относительно узкополосным цифровым каналам связи со скоростями передачи двоичных символов, равными п*64 кбит/с, где п- 1...30 [12]. Основная область применения Рекомендации Н.261 - системы компьютерной видеосвязи.
Кодируемые изображения могут иметь форматы С IF (352x288) или QCIF (176x144). Формат дискретизации 4:2:0, т. е. количества элементов цветоразностных сигналов как по вертикали, так и по горизонтали в два раза меньше, чем элементов сигнала яркости. Развертка прогрессивная, с частотой кадров 29,97 Гц, причем допускается пропускать 1, 2 или 3 кадра между каждыми двумя передаваемыми кадрами, что позволяет снизить частоту кадров до 15, 10 и 7,5 Гц, соответственно. Квантование яркостного и цветоразностных сигналов выполняется в соответствии с Рекомендацией 601.
Методы сжатия видеоинформации, используемые в Н.261, во многом схожи с применяемыми в MPEG-1 и MPEG-2. Основной единицей кодируемой видеоинформации является макроблок размером 16x16 пикселов, содержащий четыре блока 8x8 элементов сигнала яркости и по одному блоку 8x8 элементов цветоразностных сигналов. 33 макроблока составляют группу макроблоков.
Кадр формата CIF содержит 12 групп, а кадр формата QCIF - три группы макроблоков.
Каждый макроблок может кодироваться внутрикадровым или межкадровым методом. Рекомендация Н.261 не содержит правил выбора метода кодирования для макроблоков, оставляя этот вопрос на усмотрение разработчиков. Таким образом, можно произвольно задавать количество и положения кадров, целиком передаваемых с внутрикадровым кодированием, а для остальных кадров устанавливать наиболее подходящую стратегию выбора метода кодирования макроблоков с различными свойствами.
Внутрикадровое кодирование макроблока, как и в JPEG и MPEG-1, MPEG-2, включает операции поблочного ДКП, квантования коэффициентов ДКП, преобразования матрицы коэффициентов ДКП в их последовательность путем считывания в зигзагообразном порядке, кодирование полученной последовательности парами чисел (run-length coding) и кодирование кодами с переменной длиной кодовых слов (кодирование по Хаффмену). Степень сжатия регулируется выбором одного из 32 возможных значений шага квантования, причем для коэффициентов С(0,0), показывающих постоянные составляющие сигналов, шаг квантования фиксирован.
Межкадровое кодирование включает предсказание кодируемого макроблока путем поиска соответствующей области в предыдущем кадре, получение ошибки предсказания (разности действительного и предсказанного макроблоков) и кодирование ошибки предсказания методом, аналогичным используемому при внутри-кадровом кодировании, но с другими параметрами квантования. Вектор движения, показывающий смещение соответствующей области в предыдущем кадре, по каждой координате определяется с точностью до одного пиксела в диапазоне -15...15 пикселов. Векторы движения передаются в потоке данных. Отметим, что предсказание осуществляется только по предыдущему кадру, и В-кадры, имеющиеся в MPEG-1, MPEG-2, здесь отсутствуют.
Структура потока видеоданных на выходе кодера содержит заголовки кадров, заголовки групп макроблоков, заголовки макроблоков и поблочно передаваемые в каждом макроблоке данные. Объединение кадров в группы не предусмотрено. В декодере поток Данных разделяется на кадры, группы макроблоков и макроблоки, каждый из которых декодируется аналогично тому, как это было описано для MPEG-1, MPEG-2.
Рекомендация Н.261 содержит также правила передачи кодированных данных по каналу связи, которые здесь не рассматриваются.
Рассмотрим пример, чтобы оценить возможности передачи изображений с использованием Н.261. Пусть нам надо передавать , изображение формата QCIF с частотой кадров 10 Гц. Такие параметры приемлемы для простой видеотелефонной связи. Скорость ч передачи двоичных символов до сжатия составляет 2970 кбит/с. Для передачи по каналу связи с пропускной способностью 64 кбит/с необходимо сжатие в 46 раз. Такое сжатие приведет t к существенным искажениям изображения. Если же пропускная 1 способность канала связи 128 кбит/с, то необходимо сжатие в 23 раза, что вполне допустимо.
Рекомендация Н.263, принятая в 1996 г., является развитием Рекомендации Н.261 и по сравнению с последней содержит следующие основные усовершенствования [14]:
- помимо изображений форматов CIF и QC1F могут кодироваться и передаваться изображения форматов SQCIF, 4CIF и 16CIF;
- векторы движения определяются с точностью до половины пиксела, и ограничения на величины смещений отсутствуют;
- допускается использование В-кадров, при кодировании которых для предсказания используются следующие за ними кадры;
- используется более совершенный метод кодирования с переменной длиной кодовых слов (арифметическое кодирование).
Имеются и другие отличия, которые здесь не рассматриваются.
Рекомендация Н.262, принятая в 1995 г., является существенно более широкой, чем Н.261 и Н.263, и практически совпадает со стандартом MPEG-2 в части кодирования видеосигналов [13]. Кодируемые в соответствие с ней движущиеся изображения могут иметь как прогрессивную, так и чересстрочную развертки, количества пикселов от 352x288 до 1920x1152, частоту кадров 30 Гц, а н верхних уровнях 60 Гц. Предусмотрены уровни и профили, возможна масштабируемость нескольких типов. Рекомендация Н.26 может использоваться не только для систем видеосвязи, но и дл передачи программ ТВ вещания по различным каналам связи.
НЕКОТОРЫЕ МЕТОДЫ СЖАТИЯ ВИДЕОИНФОРМАЦИИ, ПРИМЕНЯЕМЫЕ В ВИДЕОСВЯЗИ И МУЛЬТИМЕДИА
Методы, краткие сведения о которых даны ниже, широко используются, но ни один из них не является международным стандартом, утвержденным ISO, или рекомендацией ITU.
Метод Cell, предложенный компанией Sun Microsystems имеет два варианта: CellA и CellB. В системах видеосвязи, где требуются компрессия и декомпрессия в реальном времени, используется метод CellB, требующий меньшего объема вычислений и позволяющий использовать аппаратные акселераторы в графических платах ПК. Изображение делится на ячейки (cell) по 4x4 пикселов. Исходный объем информации в ячейке, если каждый пиксел представляется 24 битами, составляет 384 бита. В результате кодирования ячейка представляется 32 битами (16 - распределение яркости и 16 - распределение цветности). То есть коэффициент сжатия составляет 12:1. (Читателю рекомендуется проверить, какой коэффициент сжатия получится, если исходное изображение представлено не в формате RGB, а в формате 4:2:2 по рекомендации 601.)
Метод NV (Network Video), предложен подразделением PARC компании Xerox и часто используется в системах телеконференций, работающих в Интернет. Метод основан на выделении областей изображения, в которых имеются значимые изменения, и передаче со сжатием только этих областей. Для сжатия используются либо ДПФ, либо преобразование Хаара (см. § 3.3). Степень сжатия до 20:1.
Метод Indeo, разработанный фирмой Intel, основан на предсказании текущего кадра по предыдущему. Передача кадра происходит только в том случае, если расчетные значения значимо отличаются от реальных. Сжатие осуществляется по методу FST (Fast Slant Transform - быстрое наклонное преобразование), в котором используются только алгебраические операции сложения и вычитания. Степень сжатия составляет 1,7:1.
НЕКОТОРЫЕ СТАНДАРТЫ СЖАТИЯ ЗВУКА ДЛЯ СИСТЕМ СВЯЗИ
Ниже кратко рассмотрены некоторые стандарты кодирования звуковых сигналов, используемые в системах компьютерной видеосвязи и других цифровых системах связи. Следует отметить, что если стандарты MPEG-1,2 наряду с методами сжатия изображений
содержат и методы сжатия звукового сопровождения, то рекомендации Н.261, 262, 263 касаются только изображений, а для сжатия звука в системах видеосвязи должны применяться методы, описанные в особых стандартах [18].
Рекомендация G.711 определяет метод передачи речи с помощью ИКМ. Верхняя граничная частота передаваемого сигнала ƒв = 3,4 кГц, частота дискретизации ƒд = 8 кГц, количество разрядов квантования пкв = 12. После квантования выполняется нелинейное преобразование цифрового сигнала (компандирование или компрессия), в результате которого шаг квантования при больших уровнях сигнала увеличивается. Передаточная характеристика этого преобразования по форме похожа на характеристику гамма-коррекции (см. рис. 2.14). В результате компрессии количество разрядов квантования уменьшается до 8. Более грубое квантование на больших уровнях громкости не создает заметных искажений звука.
Таким образом, скорость передачи двоичных символов дл» стандарта G.711 составляет 8 (бит) х 8 (кГц) = 64 кбит/с. В декодере выполняется обратное нелинейное преобразование с восстановлением 12 бит на каждый отсчет, после чего с помощью ЦАП получается аналоговый звуковой сигнал.
Рекомендации G.721 и G.726 определяют методы сжатия речи с помощью АДИКМ (см. § 3.5). Частота дискретизации и число разрядов квантования звукового сигнала такие же, как в рекомендации G.711. Число разрядов квантования разностного сигнала (ошибки предсказания) равно 4. Параметры предсказателя и шаг квантования разностного сигнала (ошибки предсказания) автоматически регулируются в зависимости от текущего спектра и амплитуды входного сигнала. Скорость передачи двоичных символов равна 32 кбит/с.
Рекомендация G.722 направлена на повышение качества передачи речи. Верхняя граничная частота сигнала ƒв = 7 кГц, частота дискретизации ƒд = 16 кГц, число разрядов квантования пкв=14. Кодирование включает выделение двух частотных поддиапазонов 50 Гц...4 кГц и 4 кГц...7 кГц и применение АДИКМ с числом разрядов квантования ошибки предсказания 6 в низкочастотном поддиапазоне и 2 в высокочастотном поддиапазоне. Результирующая скорость передачи двоичных символов равна 64 кбит/с.
Рекомендации G.728 и G.729 описывают методы сжатия сигналов речи с использованием кодирования с линейным предсказанием (LPC - Linear Predictive Coding). Эти методы основаны на модели голосового аппарата человека в виде линейного фильтра, на вход которого подается или квазипериодическая последовательность импульсов (при формировании гласных и некоторых согласных звуков) или шум (при формировании шипящих, свистящих и некоторых других согласных звуков). Подробное описание этих методов выходит за рамки настоящего пособия. Отметим лишь, что разборчивая речь на выходе декодера может быть получена при скоростях передачи двоичных символов 4,8 кбит/с и даже 2,4 кбит/с.
СТАНДАРТ СЖАТИЯ ЗВУКОВОЙ ИНФОРМАЦИИ АС-3
Стандарт АС-3 (или Долби АС-3) предназначен для кодирования высококачественного звукового сопровождения в цифровом телевидении и мультимедиа [19]. В частности, он используется в цифровой системе телевизионного вещания ATSC (см. § 6.1), принятой в США и ряде других стран. Стандарт АС-3 позволяет кодировать звуковые сигналы до пяти каналов и один дополнительный сигнал низкочастотных звуковых эффектов (принято обозначение 5,1-канальный звук).
На вход кодера АС-3 (рис. 4.16,а) поступают кодируемые звуковые сигналы в цифровой форме с частотой дискретизации ƒд равной 48, 44,1 или 32 кГц и количеством битов на отсчет до 24. В каждом звуковом канале берутся перекрывающиеся блоки по 512 отсчетов, так что каждый отсчет присутствует в двух таких блоках. Затем данные каждого блока отсчетов в Блоке фильтров анализа преобразуются в частотную область с использованием модифицированного ДКП (МДКП или MDCT). Возможны два варианта выполнения МДКП: длинный, когда преобразуются все 512 отсчетов, и короткий, когда раздельно преобразуются первые 256 и последние 256 отсчетов. Общая формула МДКП для обоих вариантов имеет вид
для 0 ≤ k < N12, где х(п) - отсчеты сигнала, С(k) - коэффициенты МДКП, N = 512, α- 0 для длинного варианта, N = 256 для короткого варианта, α = -1 для первого преобразования в коротком варианте, α= 1 для второго преобразования в коротком варианте. Из 512 получаемых коэффициентов МДКП в обоих вариантах оставляют 256, представляющие диапазон частот от 0 доƒд/2.
Каждый коэффициент МДКП далее представляется в виде mant*e-exp , где mant - мантисса, ехр - характеристика (exponent), записываемая с помощью 5-разрядного двоичного числа. 256 характеристик образуют огибающую спектра в пределах блока отсчетов. Огибающая спектра кодируется с целью сжатия данных о ней. При выполнении этой операции используются кодирование разностей характеристик (ДИКМ) и три варианта (стратегии) объединения этих разностей в группы и представления каждой такой группы одним числом. Потерь информации при этом не происходит.
Затем вычисляется распределение битов для квантования мантисс. При этом используется психоакустическая модель, учитывающая маскирование громкими звуками более тихих звуков на близких частотах. Полное число распределяемых битов зависит от заданной степени сжатия. Далее выполняется квантование мантисс, в результате которого мантисса каждого из 256 коэффициентов МДКП представляется числом двоичных разрядов, выделенных для нее при распределении битов. Для коэффициентов МДКП, соответствующих частотам, на которых или нет звука, или этот звук полностью замаскирован более громкими звуками на других частотах, вообще не выделяется битов. Именно квантование мантисс создает сжатие звуковой информации и, одновременно, создает потери части этой информации.
Кодированная огибающая спектра и квантованные мантиссы упаковываются в кадр (АС-3 frame), структура которого показана на рис. 4.16,6. Кадр содержит кодированные данные о 256 отсчетах сигнала каждого из 6 звуковых каналов, т. е. всего о 1536 отсчетах. Кадр начинается с заголовка, содержащего данные для синхронизации (SI - synchronization information), позволяющие обнаружить начало кадра, и данные о параметрах кодирования (BSI - bit stream information). Далее идут шесть блоков данных АВ0-АВ5 (АВ -audio block), в которых передаются кодированная огибающая спектра, квантованные мантиссы и различная вспомогательная информация, необходимая для декодирования.
В конце кадра может быть поле дополнительных данных (Aux). Кадр завершается 16-битовым кодом контроля ошибки (CRC). Дополнительный код контроля может содержаться также в заголовке кадра. Поток данных состоит из следующих один за другим кадров. Декодирование может начинаться с любого кадра.
В декодере (рис.4.16,в) из потока данных выделяются отдельные кадры, в каждом кадре проверяются контрольные коды с целью обнаружения ошибок. Если кадр принят правильно, то выполняется его декодирование. При этом по кодированной огибающей спектра вычисляется распределение битов, аналогично тому, как это делалось при кодировании. Затем производится деквантование мантисс. Значения характеристик определяются путем декодирования огибающей спектра. По мантиссам и характеристиками восстанавливаются значения коэффициентов МДКП. Наконец в блоке фильтров синтеза выполняется обратное МДКП, в результате чего вычисляются значения отсчетов сигналов звуковых каналов.
Стандарт АС-3 позволяет объединять звуковые каналы, согласовывать источники звуковых сигналов и звуковоспроизводящую аппаратуру с разными количествами каналов, сжимать .динамический диапазон звука и оптимизировать настройку громкости и дает еще много возможностей для получения наилучшего качества звука при высокой степени сжатия.
В зависимости от параметров исходных звуковых сигналов и заданной степени сжатия скорость передачи двоичных символов в выходном потоке данных может быть от 32 до 640 кбит/с. Для 5,1-канального звука типичная скорость передачи 384 кбит/с. Если, например, скорость передачи без сжатия была: 6 каналов х 48 кГц х 18 битов = 5184 кбит/с, то степень сжатия составляет 13,5.
Поток данных с кодера АС-3 может быть в качестве элементарного потока включен в состав транспортного потока MPEG-2. Поэтому стандарт АС-3 может использоваться в системах цифрового телевидения для сжатия звуковой информации вместо MPEG-2 Layer 3.
Контрольные вопросы
1. В какой последовательности кодируются по стандарту JPEG блоки цветного изображения?
2. Почему квантование коэффициентов ДКП создает менее заметные искажения, чем квантование самого изображения?
3. Каким образом в стандарте JPEG осуществляется управление степени сжатия?
4. В чем состоит сущность кодирования с переменной длиной кодовых слов?
5. Что означает термин "гибридное кодирование" применительно к стандартам MPEG-1, MPEG-2?
6. Зачем перед кодированием по MPEG-1, MPEG-2 выполняется перестановка кадров в GOP?
7. Чем различаются кадровый и полевой режимы кодирования в MPEG-1, MPEG-2?
8. Почему для В-кадров достигается наибольшая степень сжатия?
9. Каково назначение буферного ЗУ в кодере MPEG-2?
10. Что такое масштабируемость?
11. Что такое уровни и профили MPEG-2?
12. Что имеют общего и чем различаются уровни (Layers) кодирования звуковой информации в стандартах MPEG-1, MPEG-2?
13. В чем сущность адаптивного распределения битов?
14. Каково назначение психоакустической модели?
15. Как выделяются данные разных ТВ-программ из транспортного потока MPEG-2?
16. Что такое видео- и аудиообъекты MPEG-4?
17. Какие методы используются в MPEG-4 для передачи изображений человеческих лиц?
18. Опишите процесс декодирования потока данных MPEG-4.
19. Где могут применяться Рекомендации Н.261 и Н.263?
20. Какие методы кодирования применяются для сжатия речевых сигналов в системах видеосвязи?
21. В чем состоят сходство и различие стандартов Долби АС-3 и MPEG-2 Audio Layer 3?
5. ПЕРЕДАЧА СИГНАЛОВ ЦИФРОВОГО ТЕЛЕВИДЕНИЯ ПО КАНАЛАМ СВЯЗИ
5.1. Основные положения
Главными требованиями к средствам передачи сигналов цифрового телевидения по каналам связи являются использование существующих каналов телевизионного вещания и обеспечение при этом высокой помехоустойчивости.
Невыполнение первого их этих требований привело бы к необходимости менять сложившееся распределение частотных диапазонов по каналам, заменять передающие и приемные антенны, переходить к использованию более широкополосных передатчиков и радиочастотных трактов ТВ приемников. Как было показано в предыдущей главе, скорость передачи двоичных символов на выходе кодера MPEG-2 основного уровня основного профиля достигает 15 Мбит/с. Максимальная эффективность использования полосы частот канала связи при передаче двоичного сигнала с простой амплитудной манипуляцией, когда амплитуда несущей может принимать два значения, составляет 1 бит/с/Гц. Следовательно, для передачи сигнала цифрового телевидения необходима полоса частот до 15 МГц, что превышает ширину полосы частот стандартных каналов телевизионного вещания (8 МГц в Европе и 6 МГц в США и Японии).
Поэтому для передачи сигналов цифрового телевидения, особенно если надо передавать сигналы нескольких программ обычной четкости в одном канале или сигнал ТВЧ, необходимо увеличивать эффективность использования полосы частот канала связи, что достигается применением более сложных методов модуляции несущей.
Рассмотрим вопрос о помехоустойчивости [20]. Как известно, цифровая информация передается в виде последовательности двоичных символов - единиц и нулей. Из двоичных символов состоят кодовые комбинации, каждая из которых содержит информацию о букве, цифре или, в случае передачи телевизионного сигнала, о значении одного отсчета этого сигнала.
В результате действия шумов и помех отдельные двоичные символы могут быть приняты с ошибкой. Интенсивность ошибок характеризуется их относительной частотой ƒош [ош/дв.символ], показывающей вероятность того, что принятый отдельный двоичный символ ошибочен. В англоязычной технической литературе эта величина обычно называется BER (Bit Error Rate - частота ошибок на бит).
Ошибки могут быть одиночные и пакетные (групповые). Одиночные ошибки не зависят друг от друга. Пакетные ошибки искажают сразу несколько соседних двоичных символов по определенному закону. Например, вследствие действия достаточно продолжительной импульсной помехи несколько идущих подряд двоичных символов становятся равными 0 или 1.
Основные причины возникновения ошибок:
- действие аддитивного шума, в основном проявляющееся во входных каскадах приемной аппаратуры;
- индустриальные и атмосферные помехи, возникающие в результате различных электрических разрядов;
- помехи, создаваемые радиопередатчиками, работающими в этой же полосе частот в соседних местностях;
- многолучевое распространение радиоволн, возникающее из-за отражений от зданий и сооружений и от поверхности земли.
Общеизвестными способами повышения помехоустойчивости являются увеличение мощности передатчика, увеличение усиления антенны, применение в приемниках малошумящих усилителей и охлаждение входного каскада приемника, рациональное планирование использования радиоканалов на смежных территориях, помехоустойчивое кодирование. Однако эти методы имеют ограничения, связанные с реальными техническими возможностями, конечной шириной доступного диапазона длин волн, стоимостью аппаратуры и т. д. В случае передачи цифровых сигналов значительное повышение помехоустойчивости может быть достигнуто путем применения помехоустойчивого кодирования, которое рассматривается в следующем разделе.
Для уменьшения влияния пакетных ошибок применяется скремблирование (перемежение или перемешивание). Данные, перед передачей по каналу связи, переставляются в заданном порядке, а в приемной части восстанавливается исходный порядок, т. е. выполняется дескремблирование. При этом пакетная ошибка, воз-никшая в канале связи, например, в результате действия индустриальной помехи, превращается в набор рассредоточенных во времени одиночных ошибок, которые проще обнаруживаются и исправляются с помощью помехоустойчивого кодирования.
Пример скремблирования и дескремблирования показан на рис. 5.1. Исходный цифровой сигнал представляет собой последовательность 4-разрядных двоичных слов, передаваемых бит за битом (рис. 5.1,а). Скремблирование выполняется в пределах каждых четырех слов, т. е. в пределах отрезка цифрового сигнала, содержащего 16 бит. Числа показывают номер бита в этом отрезке. В результате скремблирования биты переставляются (рис. 5.1,6). Биты, искаженные действием пакетной ошибки, отмечены звездочками. В результате дескремблирования (рис. 5.1,в) восстанавливается исходный порядок битов. Искаженные биты рассредотачиваются. Как будет показано ниже, одиночные ошибки значительно легче исправляются с помощью корректирующих кодов.
Скремблирование используется и для шифровки передаваемых данных, так как восстановить правильный порядок следования битов при дескремблировании можно только обладая информацией о правилах перестановки битов.
Рассмотрим теперь общий вопрос о возможности одновременного выполнения требований эффективного использования полосы частот канала связи и обеспечения помехоустойчивости в определенной мере. Эти требования взаимно противоположны. Пусть, например, для повышения эффективности использования полосы частот в каждый момент времени сигнал в канале связи будет иметь не 2, а 4 или более возможных значений. В случае применения AM это достигается наличием соответствующего ко-
личества уровней амплитуды несущей, при ЧМ должно быть соответствующее количество возможных значений частоты, при использовании ФМ - возможных значений фазы сигнала и т. д. В общем случае можно сказать, что должен быть расширен алфавит символов в канале связи.
Очевидно, что при этом ухудшится помехоустойчивость системы, так как приемник должен будет одновременно различать не 2, а 4 или более значений сигнала. Чтобы обеспечить уверенное различение требуемого количества уровней сигнала необходимо увеличивать отношение сигнал/шум в канале связи, т. е. наращивать мощность передатчика. Это соответствует основным положениям теории связи - для увеличения пропускной способности канала связи при фиксированной ширине полосы частот необходимо повышать отношение сигнал/шум.
5.2. Помехоустойчивое кодирование
Помехоустойчивое кодирование передаваемой информации позволяет в приемной части системы обнаруживать и исправлять ошибки. Коды, применяемые при помехоустойчивом кодировании, называются корректирующими кодами или кодами, исправляющими ошибки [20].
Если применяемый способ кодирования позволяет обнаружить ошибочные кодовые комбинации, то в случае приема изображения можно заменить принятый с ошибкой элемент изображения на предыдущий принятый элемент или на соответствующий элемент предыдущей строки или предыдущего кадра. При этом заметность искажений на экране телевизионного приемника существенно уменьшается. Такой способ называется маскировкой ошибки.
Более совершенные корректирующие коды позволяют не только обнаруживать, но и исправлять ошибки. Как правило, корректирующий код может исправлять меньше ошибок, чем обнаруживать. Число ошибок, которые корректирующий код может исправить в определенном интервале последовательности двоичных символов, например, в одной кодовой комбинации, называется исправляющей способностью кода.
Основной принцип построения корректирующих кодов заключается в том, что в каждую передаваемую кодовую комбинацию, содержащую к информационных двоичных символов, вводят р дополнительных двоичных символов. В результате получается новая кодовая комбинация, содержащая п = k + р двоичных символов. Такой код часто получает обозначение (п, к). Избыточность этого кода определяется как
Например, кодовое расстояние между кодовыми комбинациями 0001 и 0011 равно 1.
Если разрешенные кодовые комбинации выбраны таким образом, что при изменении любого двоичного символа разрешенная кодовая комбинация переходит в запрещенную, то корректирующий код позволяет обнаруживать одиночные ошибки в отдельных кодовых комбинациях.
Одиночная ошибка переводит исходную кодовую комбинацию в кодовую комбинацию, отстоящую от нее на d = 1. Следовательно, для обнаружения одиночных ошибок необходимо, чтобы кодовое расстояние между любыми двумя разрешенными кодовыми комбинациями корректирующего кода было не менее 2. Для обнаружения г\ ошибок в кодовой комбинации необходимо, чтобы кодовое расстояние между двумя разрешенными кодовыми комбинациями удовлетворяло неравенству
Один из самых простых и известных примеров помехоустойчивого кодирования - проверка на четность. В каждую кодовую комбинацию вводится один дополнительный (контрольный или проверочный бит) двоичный символ хр, равный 1, если сумма
единиц в исходной кодовой комбинации равна нечетному числу, и равный 0 в противоположном случае. Это правило выражается соотношением
где x1...хk - двоичные символы исходной кодовой комбинации; - символ операции суммирования по модулю 2.
Если в приемной части системы один из двоичных символов кодовой комбинации принят с ошибкой, значение контрольного бита не будет удовлетворять указанному правилу. Это несоответствие будет обнаружено специальной схемой и явится признаком того, что произошла ошибка. Таким образом, проверка на четность позволяет обнаруживать одиночные ошибки, но не позволяет их исправлять. Данный метод широко применяется в вычислительной технике, где наличие хотя бы одного ошибочного Зита недопустимо.
Рассмотрим пример кодирования с проверкой на четность для k = 8. Ниже приведены две допустимых кодовых комбинации, i которых последний бит, отделенный вертикальной чертой, являйся проверочным: 0000000111; 00000011|0. Расстояние Хэмминга между этими кодовыми комбинациями равно 2. Кодовая комбинация 0000001111, расстояние Хэмминга от которой до двух предыдущих равно 1, является запрещенной, и ее появление в приемнике свидетельствует об ошибке.
Для исправления одиночных ошибок необходимо, чтобы кодовое расстояние между любыми двумя разрешенными кодовыми комбинациями корректирующего кода было не менее 3. В этом случае принятая запрещенная кодовая комбинация заменяется ближайшей к ней разрешенной кодовой комбинацией. Так как ошибки одиночные, то переданная разрешенная кодовая комбинация отстоит от принятой запрещенной кодовой комбинации на 1, а остальные разрешенные кодовые комбинации - не менее чем на 2. В этом случае ошибка надежно исправляется.
В общем случае для коррекции r2 ошибок в кодовой комбинации должно выполняться неравенство
Для увеличения кодового расстояния между разрешенными кодовыми комбинациями необходимо увеличивать число контрольных символов в передаваемых кодовых комбинациях. Известно соотношение
В телевизионных системах большое значение имеет возможность коррекции пакетных ошибок, искажающих сразу несколько соседних двоичных символов. Кроме того, при выборе кода для системы цифрового телевидения необходимо учитывать сложность построения декодера, так как декодер должен быть в каждом телевизионном приемнике.
В большинстве разработок систем цифрового телевидения для обеспечения помехоустойчивой передачи телевизионных сигналов по каналу связи используются коды Рида-Соломона (Reed-Solomon). Чтобы получить некоторое представление об этих кодах посмотрим, какое место они занимают в классификации корректирующих кодов (рис. 5.2).
Корректирующие коды разделяются на блочные и сверточные (непрерывные, рекуррентные). Блочные коды основаны на перекодировании исходной кодовой комбинации (блока), содержащей к информационных символов, в передаваемую кодовую комбинацию, содержащую п > k символов. Дополнительные р = п -k символов зависят только от к символов исходной кодовой комбинации. Следовательно, кодирование и декодирование осуществляются всегда в пределах одной кодовой комбинации (блока)-
В противоположность этому в сверточных кодах кодирование и декодирование осуществляются непрерывно над последовательностью двоичных символов.
Блочные коды бывают разделимые и неразделимые. В разделимых кодах можно в каждой кодовой комбинации указать, какие символы являются информационными, а какие - проверочными. В неразделимых кодах такая возможность отсутствует.
Следующая ступень классификации - систематические коды. Они отличаются тем, что в них проверочные символы формируются как линейные комбинации информационных символов. То есть для каждого проверочного символа % можно написать соотношение
Соотношение (5.1) для формирования контрольного бита проверки на четность является частным случаем (5.6). Коды Хэмминга также относятся к блочным разделимым систематическим кодам.
Перейдем к знакомству с циклическими кодами. Свойства этих кодов позволяют в достаточно компактной и ясной форме изложить правила как получения самого кода, так и построения декодера для него.
В первую очередь введем запись кодовой комбинации или, 1 как часто называют ее в литературе по корректирующим кодам, кодового вектора в виде полинома. Пусть имеется кодовая комби-1 нация a0a1a2...an-1, где a0- младший разряд кода, а - старший разряд кода. Соответствующий ей полином имеет вид
Над полиномами, представляющими кодовые комбинации, определена математическая операция умножения. Особенное этой операции по сравнению с общепринятой заключается в том что коэффициенты при х всех степеней суммируются по модулю а показатели степени х при перемножении также суммируются г
модулю п.
Далее введем понятие производящего полинома. Производящим полиномом порядка (п-k) может быть полином со старшей степенью х равной (п-k), на который без остатка делится двучлен (1+хn). Разрешенные кодовые комбинации получаются перемножением полиномов порядка k - 1, выражающих исходные кодовые комбинации, на производящий полином.
Циклические коды имеют следующее основное свойство. Если кодовая комбинация является разрешенной, то получаемая из нее путем циклического сдвига кодовая комбинация также является разрешенной в данном коде. При записи в виде полиномов операция циклического сдвига сводится к умножению исходного полинома на х с учетом приведенных ранее правил выполнения операции умножения.
Циклический код с производящим полиномом g{x) строится следующим образом.
1. Берутся полиномы
2. Кодовые комбинации, соответствующие этим полиномам, записывают в виде строк матрицы G, называемой производящей матрицей.
3. Формируется набор разрешенных кодовых комбинаций кода. В него входит нулевая кодовая комбинация, к кодовых комбинаций, указанных в п.1, а также суммы их всевозможных сочетаний. При этом каждая строка производящей матрицы может входить в сумму не более одного раза. Суммирование осуществляется поразрядно, причем каждый разряд суммируется по модулю 2. Общее число полученных таким образом разрешенных кодовых комбинаций равно 2 , что соответствует числу информационных разрядов кода.
Для построения декодера в первую очередь получают производящий полином h(x) порядка к для построения исправляющей матрицы Н.
При использовании циклических кодов кодирующие и декодирующие устройства можно строить в виде сдвиговых регистров с обратными связями через сумматоры по модулю 2.
Различные виды циклических кодов получаются с помощью различных производящих полиномов. Существует развитая математическая теория этого вопроса. Среди большого количества циклических кодов к числу наиболее эффективных и широко используемых относятся коды Бозе-Чоудхури-Хоквингема (ВСН-коды по первым буквам фамилий Bose, Chaudhuri, Hockwinham, или в русскоязычной записи БЧХ-коды), обладающие следующим свойством: для любых s и q <(2S -1)/2 существует циклический код длиной п = 2s - 1, исправляющий все возможные комбинациииз q или менее ошибок и содержащий не более sq проверочных символов. Например, БЧХ-код (63, 44), используемый в системе спутникового цифрового радиовещания, позволяет исправить 2 или 3 ошибки, обнаружить 4 или 5 ошибок на каждый блок из 63 символов. Избыточность такого кода равна R = (63 - 44)/63 = 0,33.
Одним из видов ВСН-кодов являются коды Рида-Соломона. В простейшем случае производящий полином этих кодов имеет вил
Коды Рида-Соломона используются, как правили, вместе с каким-либо простым корректирующим кодом, выходные кодовые комбинации которого являются элементами для кода Рида-Соломона. Пусть на входе используется простой корректирующий код с 5-разрядными кодовыми комбинациями, исправляющий ошибки с кратностью не более t. Тогда в выходном коде будут получаться кодовые комбинации длиной п = 5(2 -1) символов, из которых 2ts будут проверочными. Такой код будет исправлять пакетные ошибки длиной до s(t- 1) + 1 символов. Способность эффективно исправлять пакетные ошибки является одним из главных достоинств кодов Рида-Соломона, обуславливающих их широкое применение в современной технике.
В Европейском стандарте цифрового телевидения DVB (см. § 6.1) используется код Рида-Соломона (внешнее кодирование), записываемый как (204, 188, 8), где 188 - число байтов в пакете транспортного потока MPEG-2, 204 - число байтов в пакете после добавления проверочных символов, 8 - минимальное кодовое расстояние между допустимыми кодовыми комбинациями.
Эффективность действия корректирующего кода оценивается по формуле
- отношения этих величин при использовании корректирующего кода и без него, при которых получаются одинаковые частоты ошибок. Коэффициент Ккк показывает, на сколько использование корректирующего кода позволяет ухудшить отношение сигнал/шум в канале связи с сохранением частоты ошибок на прежнем уровне.
Значение Ккк обычно находится в интервале 3... 7 дБ, причем оно возрастает при уменьшении частоты ошибок, при которой производится оценка в соответствии с (5.12).
Другой широко используемый в цифровом телевидении и других цифровых системах передачи информации класс кодов -коды с решетчатой структурой (trellis code) [21]. Эти коды относятся к сверточным и преобразуют входную бесконечную последовательность двоичных символов в выходную бесконечную последовательность двоичных символов, в которой на каждый символ входной последовательности приходится более одного символа. Увеличение числа передаваемых двоичных символов при использовании сверточных кодов характеризуется относительной скоростью
Пример формирования кода такого типа приведен на рис. 5.3. Каждый двоичный символ входной последовательности преобразуется в пару двоичных символов выходной последовательности, определяемую двоичным символом входной последовательности и текущим состоянием кодирующего устройства. Таких состояний может быть четыре: 00, 01, 10 и 11. Каждому состоянию соответствует горизонтальный ряд узлов на диаграмме. Из каждого узла, соответствующего текущему состоянию, выходят две ветви. Верхняя (на рисунке) ветвь соответствует двоичному символу 0 входной последовательности, а нижняя ветвь - двоичному символу 1. Пара цифр у каждой ветви показывает пару двоичных символов выходной последовательности, формируемых при данном переходе кодирующего устройства из одного состояния в другое. Полученная структура переходов кодирующего устройства образует решетку, что и объясняет название этого класса кодов.
Для декодирования решетчатых кодов чаще всего применяется алгоритм Витерби, который позволяет из множества возможных путей, приводящих к последнему декодируемому символу принятой последовательности, выбрать относительно небольшое число путей, являющихся наиболее правдоподобными, и определить правильное значение символа исходной последовательности.
В цифровом телевидении решетчатые коды применяются для помехоустойчивого кодирования передаваемых данных в канале связи после кодирования с применением кодов Рида-Соломона (внутреннее кодирование).
5.3. Методы модуляции, применяемые при передаче сигналов цифрового телевидения по радиоканалу
Главная особенность модуляции несущей цифровыми сигналами заключается в том, что модулируемый параметр несущей может принимать в результате модуляции ряд дискретных значений. Такую модуляцию часто называют манипуляцией.
Амплитудная манипуляция (АМн) заключается в дискретном изменении уровня амплитуды несущей. В простейшем случае одному уровню сигнала может соответствовать наличие несущей, а другому - отсутствие. Получение помехоустойчивой системы с АМн при количестве значений сигнала более 2 сопряжено с трудностями. Кроме того, при этом получаются значительные перепады излучаемой мощности.
Частотная манипуляция (ЧМн) осуществляется путем дискретного изменения частоты несущей при постоянной ее амплитуде.
Фазовая манипуляция (ФМн) заключается в дискретном изменении фазы несущей. В простейшем случае несущая может иметь два значения фазы - 0 и 180°. В приемнике может осуществляться как когерентное детектирование, требующее фазовой синхронизации приемника с передатчиком, так и более простое некогерентное детектирование. В последнем случае часто применяют относительную фазовую манипуляцию, при которой фаза несущей для каждого принятого символа сравнивается не с некоторой абсолютной начальной фазой, а с фазой несущей для предыдущего принятого символа.
Для повышения эффективности использования полосы частот канала связи применяется многопозиционная ФМн [22]. Пример соответствия фазы несущей передаваемому трехразрядному двоичному коду для восьмипозиционной ФМн приведен на рис. 5.4. Сдвиг между дискретными значениями фазы несущей равен 450 . Эффективность использования полосы частот в такой системе повышается в три раза по сравнению с простой двухпозиционной ФМн, так как на несущей одновременно передаются три двоичных символа.
Следующий вид модуляции, часто применяемый для передачи цифровых сигналов - многопозиционная квадратурная амплитудная манипуляция (КАМн). Как известно, квадратурная амплитудная модуляция заключается в одновременной амплитудной модуляции двумя сигналами u(inphase) и uQ (quadrature) двух квадратурных составляющих несущей с частотой ω0 и получении суммарного сигнала:
Для демодуляции используется синхронное детектирование, состоящее в умножении сигнала u(t) на cos ω0tи на sin ω0tс последующим подавлением высокочастотных составляющих фильтром НЧ. В результате выделяются, соответственно, uI(t) и uQ(t).
Сама по себе квадратурная амплитудная модуляция уже обеспечивает увеличение эффективности использования полосы частот в два раза, так как на одной несущей частоте одновременно передаются два сигнала. В случае КАМн уровни каждой квадратурной составляющей несущей изменяются дискретно. На рис. 5.5; показана 4-позиционная КАМн, при которой каждая квадратурная составляющая может иметь два возможных уровня. В случае, no-i казанном на рис. 5.5,а, каждая составляющая может или отсутствовать, или присутствовать с заданной амплитудой. В случае, приведенном на рис. 5.5,6, каждая составляющая может быть в фазе, что соответствует уровню +0,5, или в противофазе, что соответствует уровню -0,5. Второй вариант предпочтительнее, так как в нем обеспечивается меньшее отношение пиковой мощности несущей к ее средней мощности.
Если каждая квадратурная составляющая может иметь четыре уровня, что соответствует двум битам, то получается 16-позиционная КАМн, диаграмма возможных комбинаций сигналов I и Q для которой приведена на рис. 5.6. Такая модуляция дает выигрыш в эффективности использования полосы частот в четыре раза, так как одновременно передаются 4 бита. Применяются также 64-позиционная и 256-позиционная КАМн, при использование которых одновременно передаются 6 и 8 битов, соответственно.
Если дискретно модулировать не амплитуду, а фазу каждой из двух квадратурных составляющих, получим квадратурную фазовую манипуляцию (КФМн). Сигнал, получаемый в этом случае, может быть представлен соотношением
где Өс, ӨS- фазы квадратурных составляющих; Ө0- фаза результирующего сигнала. В табл. 5.1 приведены значения фазы результирующего сигнала в случае, когда квадратурные составляющие модулируются по фазе двухуровневыми сигналами соответственно d1 и d2, имеющими уровни 1 и -1.
В моменты, когда меняются фазы обеих квадратурных составляющих, фаза Ө0 может меняться скачком на 180 . Это приводит к возникновению паразитной амплитудной модуляции при прохождении сигнала с КФМн через частотно-зависимые цепи. Для устранения этого нежелательного эффекта используют квадратурно-фазовую манипуляцию со сдвигом (КФМнС). Сущность ее заключается в том, что фазы двух квадратурных составляющих изменяются в разные моменты времени, и возможность скачка фазы суммарного сигнала на 180 исключается.
Один из современных методов передачи цифровых сигналов по радиоканалам — ортогональное частотное мультиплексирование[23]. В англоязычной технической литературе такая модуляция; называется OFDM (Orthogonal Frequency Division Multiplex). Сущность этого метода поясняется рис. 5.7. I
В стандартном канале телевизионного вещания, имеющем ширину полосы частот ΔFk выделяют N несущих частот, отстоящих друг от друга на равные частотные интервалы Δƒ. Числа у оси частот показывают номера несущих от 0 до N-1. Общий поток передаваемых цифровых данных, имеющий скорость передачи двоичных символов Qo, разделяют на N параллельных подпотоков, каждый из которых имеет скорость передачи двоичных символов Q1 = Qo/N.
Каждый подпоток передается на своей несущей, например, с использованием КАМн. Таким образом, в одном канале телевизионного вещания получается N узкополосных подканалов. Количество несущих в соответствии со стандартом DVB-T (§ 6.1) может быть равно 6817 (Δƒ=1116 Гц) или 1705 (Δƒ=4464 Гц).
Модуляция и демодуляция выполняются с помощью ДПФ. Выбор частотных интервалов между несущими осуществляется так, чтобы соседние несущие колебания были ортогональны на отрезке времени, в течении которого передается один символ. Это позволяет избежать взаимного влияния соседних подканалов.
Данный метод передачи имеет следующие достоинства:
- равномерное распределение энергии по полосе частот канала связи;
- возможность передавать наиболее важную часть информации (синхронизацию, НЧ-составляющие сигнала яркости) на тех участках полосы частот, где меньше всего уровень помех от соседних каналов, а области полосы частот канала, соответствующие несущим изображения и звука обычного телевизионного вещания вообще не использовать;
- так как каждый из подканалов является узкополосным, то уменьшается влияние отраженных сигналов при многолучевом приеме.
Последнее свойство особенно важно, так как многолучевой прием создает значительные сложности для цифрового телевизионного вещания в городах. При использовании OFDM длительности интервалов времени, в течении которых передаются отдельные символы, увеличиваются и становятся больше, чем времена задержек отраженных сигналов, благодаря чему обеспечивается безошибочный прием.
Кроме того, для исключения влияния отраженных сигналов вводятся защитные интервалы. На рис. 5.8,а показаны отрезки времени, в течении которых на модулятор одной из несущих поступают символы передаваемого подпотока данных SI, S2, S3 и т. д. (В зависимости от используемого метода модуляции несущих количество битов в символе может быть различным/) Перед началом передачи символа S2 формируется защитный интервал Δ1 (рис. 5.8,6), в течении которого на входе демодулятора в приемнике еще могут присутствовать отраженные сигналы, содержащие предыдущий символ S1 (рис. 5.8,в). Затем в течении интервала времени Тр2 передается символ S2. Аналогично формируется защитный интервал Δ2 перед символом S3 и т.д.
В современных системах передачи цифровых сигналов в том числе в системах цифрового телевидения, при модуляции несущей осуществляют дополнительное кодирование информации, например, с использованием решетчатых кодов с целью повышения помехоустойчивости. При этом число возможных со стояний несущей после модуляции превышает число символов которые должны быть переданы. То есть вводится дополнительна избыточность, обеспечивающая повышение помехоустойчивости Такую модуляцию, совмещенную с кодированием, называют кодированной модуляцией (Coded modulation). В частности, сочетание помехоустойчивого канального кодирования с OFDM называют COFDM (Coded Orthogonal Frequency Division Multiplex).
Таким образом, при передаче сигналов цифровой систем телевидения по радиочастотным каналам связи используются две ступени помехоустойчивого кодирования. На первой ступени, называемой внешней, осуществляется кодирование цифровой ин формации с помощью кодов Рида-Соломона, как это было описай в предыдущем разделе. На второй ступени, называемой внутренней, используется канальное кодирование, совмещенное с модуляцией. В результате достигается требуемая помехоустойчивость.
6. Реализация цифровых телевизионных систем
6.1. Европейский стандарт цифрового телевидения DVB
Работы по проекту DVB (Digital Video Broadcasting - Цифровое видеовещание) начались в 1993 г. В них принимает участие более 200 организаций и фирм многих стран Европы. В результате в 1994 г. были выработаны основные положения стандарта DVB-C (С - Cable, кабель) для кабельного телевизионного вещания и стандарта DVB-S (S - Sattelite - спутник) для спутникового телевизионного вещания. Работа над стандартом наземного (т. е. обычного, эфирного) телевизионного вещания DVB-T (Terrestrial -наземный) была закончена позже, в 1996 г., так как в этом виде вещания внедрение цифрового телевидения столкнулось с наиболее серьезными сложностями [11].
В основе стандартов DVB лежит стандарт кодирования движущихся изображений и звукового сопровождения MPEG-2, рассмотренный в § 4.2. В стандартах DVB помимо методов кодирования и параметров транспортного потока, описанных в MPEG-2, определены также методы помехоустойчивого кодирования, канального кодирования, модуляции несущих частот, передачи дополнительной информации, защиты информации от несанкционированного доступа и другие методы, необходимые для организации цифрового телевизионного вещания [24].
Параметры кодирования движущихся изображений, предусмотренные в DVB, совпадают с приведенными в табл. 4.4. В настоящее время, как правило, используется основной профиль без масштабирования.
Синтаксис транспортного потока DVB расширен по сравнению с транспортным потоком MPEG-2. Предусмотрены новые типы пакетов, имеющие свои особые идентификаторы (PID). Среди них пакеты SI (Service Information - служебная информация), в которых передаются сведения об источнике ТВ-программы, в том тесле параметры канала связи (частота, скорость передачи данных, координаты спутника и т.д.), классификация содержания, програмными, телефонные номера для обратной связи с телестудией и т. п.
В DVB предусмотрена передача пакетов, содержащих данные обычного Телетекста, который уже много лет широко используется в европейских странах. Имеются возможности передач! субтитров с переводом, что весьма актуально для многоязычно! Европы, а также графических элементов (логотипов ТВ каналов i
т. п.).
Стандарты DVB обеспечивают условный доступ (Conditional Access - СА) к передаваемым телевизионным программам, что позволяет организовывать платное ТВ-вещание. Система условного доступа включает механизм скремблирования ТВ-программ, подсистему хранения данных о пользователях (Subscribe Management System - SMS), и подсистему шифровки и пересылке ключей, обеспечивающих правильное дескремблирование принимаемых программ, пользователям, внесшим соответствующую оплату (Subscriber Authorization System - SAS). При этом стандартизирован только общий алгоритм скремблирования (причем эта информация недоступна для простых пользователей), а для SM! и SAS определены общие принципы построения. Конкретная peaлизация системы условного доступа определяется фирмами, ведущими ТВ-вещание и производящими аппаратуру. Одним из реко мендованных методов шифровки ключей является SimulCrypi Возможно одновременное использование нескольких способов шифровки (MultiCrypt).
Стандарты DVB допускают возможность вводить дополни тельные, не описанные в стандарте, пакеты данных с особым: идентификаторами. В этих пакетах ведущая вещание телевизион ная компания может передавать ключи к шифрам условного доступа, так называемые навигаторы или гиды (EPG - Electron Program Guide), т. е. системы меню и таблиц для поиска нужно: передачи и программирования времени включения телевизионном приемника для просмотра или записи выбранной передачи, и другую информацию. Форматы данных в таких пакетах определяются телевизионными компаниями. Поэтому для приема ТВ-программ разных компаний могут понадобиться разные декодеры.
Для многих видов сервиса, реализуемых в рамках стандартов DVB, необходим интерактивный режим работы, т. е. возможность взаимодействия между пользователем и поставщиком ТВ-программы. Указанное взаимодействие может заключаться в посылке команд по телефонному каналу, в обмене данными через Интернет и т. д. С этой целью в стандартах DVB описаны:
а) независящие от вида используемой сети протоколы обмена данными;
б) средства обеспечения интерактивности для некоторых конкретных видов сетей (обычная телефонная сеть, сеть ISDN, сеть кабельного ТВ).
В будущем предполагается введение в DVB стандарта, определяющего построение цифровой системы сбора новостей через спутники (Digital Satellite News Gathering - D-SNG), которая должна включать средства двустороннего обмена данными.
В соответствии со стандартами DVB для всех видов ТВ-вещания, сформированный транспортный поток данных подвергается скремблированию для устранения длинных серий 0 или 1 в транспортных пакетах MPEG-2, за счет чего обеспечивается устойчивая работа системы тактовой синхронизации приемного устройства. При этом, чтобы не нарушить в демодуляторе цикловую синхронизацию, стартовые синхрогруппы транспортных пакетов скремблированию не подвергаются. Одновременно скремблирование обеспечивает защиту данных от несанкционированного доступа.
Далее поток данных поступает на кодер Рида-Соломона (внешнее кодирование), также общий для всех видов ТВ-вещания. Эта ступень кодирования транспортных пакетов MPEG-2 охватывает и стартовые синхрогруппы пакетов, и в результате длительность транспортного пакета возрастает с 188 до 204 байтов.
Затем данные, в которые добавлены контрольные биты, поступают на блоки канального кодирования (внутреннее кодирование) и модуляции несущей частоты. Выполнение этих операций в разных видах ТВ-вещания рассматривается далее.
КАБЕЛЬНОЕ И СПУТНИКОВОЕ ТВ-ВЕЩАНИЕ
Кабельные каналы телевизионного вещания находятся в наиболее благоприятных условиях с точки зрения обеспечения помехоустойчивости, так как они защищены от действия атмосферных и индустриальных помех, и в них имеется возможность поддерживать достаточно высокое значение отношения сигнал/шум (не менее 30 дБ) за счет использования промежуточных усилителей. Основная задача в кабельном телевизионном вещании
— обеспечить наиболее эффективное использование полосы частот, чтобы передавать по имеющимся кабельным сетям максимальное количество телевизионных программ.
С этой целью в кабельных сетях в соответствии со стандартом DVB используется многопозиционная квадратурная амплитудная манипуляция (КАМн), принципы которой были изложены в § 5.3. Для канального кодирования используются сверточные коды. В настоящее время применяются 16-, 32- и 64-позиционная КАМн. В перспективе предполагается применение 128- и 256-позиционной КАМн. Скорости передачи двоичных символов, получаемые при разных количествах позиций КАМн, приведены в табл. 6.1. Полная скорость передачи оказывается выше скорости передачи полезных данных за счет введения дополнительных символов при помехоустойчивом кодировании.
Сопоставляя параметры в последнем столбце табл. 6.1 со скоростями передачи двоичных символов, необходимыми для передачи телевизионных программ с разными уровнями качества изображения (см. § 4.2), можно оценить, сколько программ с тем или иным качеством изображения можно передать в одном канале кабельного телевидения.
Для спутниковых каналов телевизионного вещания характерен низкий уровень индустриальных помех и помех от других передатчиков, так как в этих каналах используются остронаправленные антенны. Основным фактором, создающим ошибки при приеме цифровых сигналов, является низкое отношение сигнал/шум на входе приемника, что обусловлено большим расстоянием до передатчика. В то же время ширина полосы частот спутниковых каналов связи значительно шире, чем каналов наземного и кабельного телевидения.
Стандарт DVB предусматривает использование существующих каналов спутникового телевидения с шириной полосы частот 27 МГц в диапазоне частот 11... 12 ГГц. В перспективе предполагается использование диапазона 20...21 ГГц с более широкой полосой частот отдельных каналов. Для повышения помехоустойчивости применяются сверточные коды. В зависимости от конкретного варианта канального кодирования пороговое отношение сигнал/шум на входе приемника равно 4,1...8,4дБ. Используется фазовая манипуляция несущей.
Получаемые для каналов связи с различной шириной полосы частот (по уровню 3 дБ) скорости передачи двоичных символов даны в табл. 6.2. Скорость передачи полезных данных (последний столбец) зависит от параметров канального кодирования. При повышении избыточности канального кода помехоустойчивость растет, но скорость передачи полезных данных уменьшается.
Число кабельных и спутниковых каналов цифрового телевидения по стандартам DVB в Европе исчисляется многими сотнями.
ПРИЕМНОЕ УСТРОЙСТВО ДЛЯ КАБЕЛЬНОГО И СПУТНИКОВОГО ТВ-ВЕЩАНИЯ ПО СТАНДАРТАМ DVB
Для приема сигналов цифрового телевидения необходимо особое устройство, получившее название "d-box" или "Set-Top-Box". Первый вариант названия, по-видимому, происходит от слова "digital" - цифровой, а второй вариант скорее всего показывает, что такое приемное устройство ставится на телевизионный приемник сверху. Выпуск таких устройств, а также специальных микросхем для них, осуществляется многими ведущими радиоэлектронными фирмами в Европе, Японии и Корее.
Рассмотрим в качестве примера структурную схему устройства "Set-Top-Box" на микросхемах фирмы Philips (рис. 6.1). Такое устройство принимает сигналы цифрового телевидения по кабельной линии и от спутниковой антенны и преобразует их в аналоговые телевизионные сигналы для подачи на обычный телевизионный приемник.
Высокочастотный тюнер имеет два входа. К одному из них (КТВ) подключается линия кабельной телевизионной сети. Диапазон частот сигнала на этом входе от 50 до 850 МГц. На второй вход тюнера (СТВ) поступает сигнал с приемного устройства спутникового канала. Этот сигнал идет на несущей частоте, находящейся в диапазоне 1.. .2 ГГц, перенос на которую осуществляется в преобразователе, расположенном непосредственно у приемной антенны. При работе с любого из этих входов тюнер позволяет выбрать нужный телевизионный канал и переносит сигнал с несущей частоты выбранного канала на промежуточную частоту. Управление выбором режима работы и настройкой на канал производится по шине 12С.
В случае приема кабельного телевидения сигнал промежуточной частоты (ПЧ) с выхода тюнера поступает на АЦП, в качестве которого могут использоваться микросхемы типов TDA8790 или TDA8761. Дальнейшая обработка сигнала производится в цифровой форме. В блоке ДМД КАМн выполняются демодуляция квадратурной амплитудной манипуляции и канальное декодирование. Микросхема TDA8046 позволяет демодулировать КАМн, имеющую 4, 16, 32, 64 или 256 возможных состояний (позиций).
В случае приема спутникового телевидения сигнал с выхода тюнера поступает на блок ДМД КФМн, в котором выполняется демодуляция квадратурной фазовой манипуляции и канальное декодирование. Этот блок построен на микросхеме TDA8042, представляющей собой собственно демодулятор, и микросхеме TDA8043, которая выполняет функции управления демодулятором и канального декодирования (Упр ДМД).
В обоих режимах приема сигналы после демодуляции и канального декодирования поступают на декодер Рида-Соломона, (КОш - Корректор ошибок), в котором осуществляется коррекция ошибок в принятых данных. Этот блок выполняется на микросхеме SAA7207, на выходе которой формируется транспортный поток MPEG-2.
АЦП, демодулятор КАМн, канальный декодер и декодер кода Рида-Соломона могут быть реализованы на одной микросхеме канального приемника кабельного ТВ типа TDA10021. Функции демодуляции, канального декодирования и декодирования кода Рида-Соломона для приема спутникового ТВ могут выполняться одной микросхемой типа TDA10085.
Затем в блоке ДСкр выполняется дескремблирование сигнала, т. е. в соответствии с условиями доступа к конкретной телевизионной программе выполняется расшифровка данных. Дескремблер выполняется на микросхеме SAA7206. Наконец в блоке ДМп осуществляется демультиплексирование транспортного потока данных, который преобразуется в элементарные потоки видеоданных и звукового сопровождения в соответствии со стандартом MPEG-2. Этот блок реализуется на микросхеме SAA7205. Дескремблирование и демультиплексирование могут выполняться одной микросхемой SAA7219.
Полученные элементарные потоки данных поступают на декодер MPEG-2 (ДКд MPEG), выполняемый на микросхеме SAA7201. Возможно также использование микросхемы SAA7215 или SAA7216. В этом блоке выполняются синхронизация по принятым меткам времени встроенного генератора тактовой частоты 27 МГц, полное декодирование данных изображения, звука и дополнительной текстовой и графической информации в соответствии с главным уровнем главного профиля MPEG-2 (см. § 4.2) и формирование выходных цифровых сигналов изображения в соответствии с Рекомендацией 601 МККР) и звукового сопровождения. Данные изображения выводятся в виде цифровых сигналов Y (сигнал яркости) и U, V (цветоразностные сигналы) в формате 4:2:2 по 8 бит на элемент изображения.
Поток данных на входе декодера до 20 Мбит/с. К декодеру подключается внешнее ОЗУ объемом 16 Мбит (организация 1Мх16) для временного хранения данных. Управление работой декодера по цифровой шине от внешнего блока управления. Напряжение питания 3,3 В. Корпус микросхемы имеет 160 выводов.
Цифровой сигнал изображения поступает на микросхему типа SAA7124 (блок Видео ЦАП), в которой преобразуется в аналоговые видеосигналы. Эта микросхема имеет режимы формирования полных сигналов систем PAL и NTSC, режим формирования J сигналов стандарта S-видео, в соответствии с которым на одном выходе присутствует сигнал яркости, а на другом выходе - сигнал цветности на поднесущей, режим вывода сигналов основных цветов R, G, В и режим вывода сигнала яркости Y и цветоразностных ' сигналов U, V. Выбор одного из режимов производится в зависимости от наличия соответствующих входов у используемого телевизионного приемника или монитора. Число разрядов ЦАП 10 или 9. Выполняется обработка сигналов субтитров. Управление работой микросхемы осуществляется по шине 12С.
Цифровые сигналы звукового сопровождения поступают на микросхему TDAI306T (Аудио ЦАП). Эта микросхема содержит два канала обработки звуковых сигналов для воспроизведения стереофонического звукового сопровождения. Число разрядов ЦАП 16. Динамический диапазон звука до 95 дБ. Отношение сигнал/шум не хуже 88 дБ. Управление по шине 12С.
Кроме того, устройство "Set-Top-Box" содержит блок управления (БУ) с микропроцессором и приемником сигналов дистанционного управления. Команды от БУ к другим блокам передаются по двухразрядной цифровой шине 12С.
Приставка для приема наземного цифрового ТВ-вещания по стандарту DVB-T (см. ниже) имеет сходную структуру. В качестве демодулятора и канального декодера может использоваться микросхемой VES9600 фирмы Philips, на вход которой поступает радиосигнал на промежуточной частоте, а цифровой сигнал с выхода подается на декодер Рида-Соломона.
В системе цифрового телевидения должны быть методы и средства контроля параметров сигналов в различных частях системы. Так как сигнал цифровой, то основным показателем качества передачи становится частота ошибок. В табл. 6.3 перечислены параметры, контролируемые в приставке для приема цифрового телевидения. Следует отметить, что, например, для контроля транспортного потока, требуется принципиально новое оборудование, так как по осциллографу проверить поток данных невозможно. Примером такого оборудования может служить система MTS 100 фирмы Tektronix.
НАЗЕМНОЕ ТЕЛЕВИЗИОННОЕ ВЕЩАНИЕ. СРАВНЕНИЕ DVB-T И ATSC
Переход к цифровому наземному ТВ-вещанию оказался трудной задачей, так как этот вид ТВ-вещания наиболее подвержен действию различных помех. При обычной передаче телевизионных сигналов по эфиру на качество приема помимо атмосферных и индустриальных помех сильно влияют отраженные радиоволны (многолучевой прием) и помехи от других радиопередатчиков, работающих в этом же частотном диапазоне в соседних местностях.
Стандарт DVB-T предусматривает для передачи сигналов цифрового телевидения по стандартным каналам ТВ-вещания использование OFDM (см. § 5.3) [23]. Возможны два режима, называемые 8К (число несущих 6817) и 2К (число несущих 1705). Режим 8К позволяет использовать меньшие мощности передатчиков, но требует более производительных устройств обработки сигналов, чем режим 2К. Параметры для обоих режимов приведены в табл. 6.4.
Обозначения N, Д/, А, Тр были введены на рис. 5.7 и 5.8, с - скорость света. Об одночастототной сети вещания будет сказано позже.
Из приведенных данных видно, что сигнал цифрового телевидения, передаваемый с помощью OFDM, можно разместить в стандартном радиоканале аналогового ТВ-вещания с полосой пропускания 8 МГц, обеспечивая между соседними радиоканалами защитные частотные интервалы приблизительно по 0,39 МГц.
В табл. 6.5 приведены значения скорости передачи двоичных символов для полезной информации и допустимого минимального отношения сигнал/шум в радиоканале для различных способов модуляции отдельных несущих OFDM. Эти результаты справедливы для обоих режимов: 8К и 2К.
Значения отношения сигнал/шум даны для случаев приема на стационарную и на мобильную антенну. В последнем случае телевизионный приемник может быть установлен на автомобиле или другом транспортном средстве. Значения достижимой скорости передачи даны для разных отношений Δ/Тр (1/4, 1/8, 1/16 178 и 1/32). Относительная скорость кода характеризует избыточность, вносимую применяемым методом канального кодирования (см. § 5.3, формула (5.13)).
Сопоставляя числа, приведенные в табл. 6.5, со значениями скорости передачи двоичных символов, соответствующими различным уровням качества воспроизводимого изображения при сжатии по стандарту MPEG-2 (§ 4.2), можно выбирать способы модуляции несущих и значения защитных интервалов, обеспечивающие передачу требуемого количества ТВ-программ с заданным качеством изображения. По значениям отношения сигнал/шум можно рассчитывать требуемые мощности передатчиков и размеры зон уверенного приема.
Из таблицы видно, что прием сигналов цифрового телевидения возможен при низких отношениях сигнал/шум. Для сравнения напомним, что для получения качественного изображения при приеме обычного аналогового телевизионного сигнала необходимо отношение сигнал/шум около 50 дБ.
Рассмотрим другие особенности стандарта DVB-T. Будем называть символом OFDM совокупность информационных символов, передаваемых в данный момент времени на всех несущих частотах. Символы OFDM, организуются в кадры, каждый из которых содержит 68 символов OFDM. 4 кадра образуют суперкадр, который содержит целое число транспортных пакетов MPEG-2.
В каждом символе OFDM для режимов модуляции 8К и 2К выделяется, соответственно, 769 и 193 опорных несущих, которые по сравнению с остальными несущими передаются с повышенной на 2,5 дБ мощностью. Часть опорных несущих имеют постоянные положения на оси частот, а положения остальных опорных несущих изменяются от одного символа OFDM к другому. На опорных несущих передаются сигналы для автоподстройки опорных частот демодулятора, сигналы тактовой синхронизации, сигналы управления демодулятором, содержащие информацию об используемых режимах модуляции, и другая наиболее важная для обеспечения приема информация.
Кадр содержит все необходимые сигналы для синхронизации демодулятора. Поэтому длительность задержки начала приема после, например, переключения каналов, не превышает длительности одного кадра.
Стандарт DVB-T предусматривает возможность использования иерархической модуляции. Сущность этого метода состоит в том, что передаваемый цифровой поток разбивается на два потока. Первый поток кодируется с более высокой помехоустойчивостью, и в нем передается наиболее значимая часть информации, например, старшие разряды видео- и аудиоданных. Второй поток кодируется с меньшей помехоустойчивостью и используется для передачи менее значимой части информации. При использовании профилей MPEG-2, имеющих масштабируемость (см. раздел 4.2.2), первый поток может соответствовать базовому слою потока данных, а второй поток - дополнительному слою.
Иерархическая модуляция дает возможность принимать телевизионные программы, хотя и с пониженным качеством изображения, при неблагоприятных условиях, например, на значительном удалении от передатчика или при наличии существенных помех.
Еще одна особенность стандарта DVB-T - возможность построения одночастотной сети телевизионного вещания (Single Frequency Network - SFN), в которой соседние передатчики могут одновременно вести вещание на одной несущей частоте, синхронно передавая одну и ту же ТВ-программу, причем области приема их сигналов перекрываются. В зонах перекрытия, благодаря применению OFDM, наличие сигналов от двух передатчиков не только не ухудшает качество приема, но наоборот, позволяет улучшить прием за счет сложения двух сигналов. Использование одночастотной сети позволяет охватить наземным ТВ-вещанием большую территорию, распределив по ней требуемое количество относительно маломощных передатчиков.
Канальное кодирование (внутреннее кодирование) в соответствии со стандартом DVB-T основано на применении сверточного кода и имеет целью защиту передаваемой информации от селективных замираний несущих в групповом сигнале OFDM при работе в синхронной одночастотной сети ТВ-вещания и от помех при многолучевом приеме в случае использования простых дипольных антенн. В результате частота ошибок на выходе демодулятора снижается с 10-1...10-2 до 2х10-4, что обеспечивает нормальную работу декодера Рида-Соломона.
Кроме того, для защиты от селективных замираний несущих OFDM производится побитное и побайтовое перемежение данных с тем, чтобы соседние биты и байты не передавались на соседних несущих.
DTV-T не единственная система наземного цифрового ТВ-вещания. В США принят свой стандарт наземного цифрового ТВ, называющийся ATSC (Advanced Television Systems Committee -Комитет по усовершенствованным системам телевидения). В основе этого стандарта также лежит метод сжатия движущихся изображений MPEG-2, позволяющий передавать как ТВ-программы обычной четкости, так и ТВЧ. Для сжатия звукового сопровождения применен метод Долби АС-3 (см. § 4.4).
Для передачи по обычным радиоканалам в ATSC применяется 8-позиционная амплитудная манипуляция с частично подавленной боковой полосой, обозначаемая 8VSB. Имеется несколько ступеней помехоустойчивого кодирования. Для. подавления отраженных сигналов при многолучевом приеме в приемнике используется адаптивный эквалайзер, представляющий собой цифровой фильтр с настраиваемыми коэффициентами.
В передаваемый сигнал вводятся специальные опорные импульсы, форма и положение которых точно известны. В процессе приема адаптивный эквалайзер автоматически настраивается так, чтобы параметры опорных импульсов на его выходе максимально соответствовали заданным значениям. Тем самым обеспечивается коррекция искажений, создаваемых отраженными сигналами. Так как все сигналы в радиоканале передаются в одинаковых условиях, то в результате настройки эквалайзера по опорным импульсам обеспечивается подавление отраженных составляющих и в остальном цифровом телевизионном сигнале.
Сравним DVB-T и ATSC. Параметры передаваемых изображений в обоих стандартах одинаковы, так как определяются стандартом MPEG-2. По качеству звукового сопровождения стандарты также эквивалентны, так как в DVB звук тоже может кодироваться с применением стандарта АС-3. Основное различие заключается в применяемых методах модуляции и проявляется в различной устойчивости к действию помех.
В некоторых публикациях отмечалось, что DVB-T имеет ряд преимуществ перед ATSC:
- DVB-T обеспечивает реальное уменьшение мощности ТВ-передатчиков в условиях городской застройки;
- при использовании DVB-T прием на комнатные антенны и антенны переносных телевизоров не создает проблем, а при использовании ATSC - в большинстве случаев невозможен;
- DVB-T обладает высокой устойчивостью к помехам, создаваемым аналоговым ТВ-вещанием, и может сосуществовать с ним;
- DVB-T дает возможность создания одночастотных сетей с перекрытием зон приема сигналов соседних передатчиков.
В то же время в ряде публикаций предпочтение отдается ATSC.
Еще один стандарт наземного цифрового ТВ-вещания, называемый ISDB-T, был разработан в Японии. Здесь этот стандарт не рассматривается.
DVB И "СОТОВОЕ ТЕЛЕВИДЕНИЕ"
В последние годы в телевидении наблюдается возобновление интереса к эфирным каналам. Это системы сотового телевидения, которые как и системы сотовой радиосвязи, основаны на использовании большого количества относительно маломощных передатчиков СВЧ-диапазона, каждый из которых обслуживает небольшую территорию. Наличие в сети множества ячеек позволяет предлагать пользователям свой набор ТВ-программ в каждой их них, что выгодно отличает сеть сотового ТВ от существующих систем эфирного ТВ-вещания в метровом и дециметровом диапазонах.
Абонентское оборудование представляет собой обычный спутниковый тюнер, работающий в диапазоне частот 950...2050 МГц. Антенна с СВЧ-приемником представляет собой легкое компактное устройство диаметром около 150 мм (40 ГГц) или 250 мм (28 ГГц). Так как антенна остронаправленная, то принимаются сигналы только того передатчика, на который она нацелена. Преобразование частоты сигнала в рабочий диапазон тюнера выполняется СВЧ-блоком, расположенным в антенне.
Аналоговая система сотового телевидения MMDS (Multichannel Microvave Distribution System) использует широкополосные каналы с ЧМ в СВЧ диапазоне. К цифровым системам сотового телевидения относятся LMDS (Local Multipoint Distribution System) и MVDS (Multipoint Video Distribution System). Такие системы, как правило, работают в диапазонах радиочастот 27,5..29,5 ГГц (Северная Америка) и 40,5...42,5 ГГц (Европа) и используют помехоустойчивые виды модуляции (QPSK). Известны варианты таких систем и для работы в других частотных диапазонах, например 24, 31 и 38 ГГц. В полосе частот 2 ГГц с помощью этих систем можно передавать от 96 до 128 аналоговых ТВ-каналов или в несколько раз больше цифровых. При этом передача радиосигналов осуществляется на экологически безопасных уровнях мощности 100..300 мВт на канал.
По данным зарубежных специалистов, стоимость развертывания сети сотового ТВ в городских условиях в 3-5 раз ниже стоимости строительства традиционных широкополосных кабельных сетей. Большое количество широкополосных каналов и низкая требуемая мощность передатчиков делают системы сотового телевидения перспективными не только для обычного телевизионного вещания, но и для систем интерактивного телевидения и видеосвязи. Передача цифровых информационных потоков в обоих направлениях, в таких системах может осуществляться со скоростями 2, 34 и даже 155 Мбит/с.
Перспективность новых методов ТВ-вещания нашла отражение в стандартах DVB. Методы передачи программ цифрового телевидения по сети MMDS для частот выше 10 ГГц описаны в стандарте DVB-MS, который является развитием стандарта DVB-S для спутникового ТВ, а для частот ниже 10 ГГц - в стандарте DVB-MC, основанном на стандарте DVB-C для кабельного ТВ.
6.2. Системы видеосвязи
Система видеосвязи обеспечивает двустороннюю передачу изображения и звука между абонентами этой системы по проводным и радиоканалам. В этом ее принципиальное отличие от традиционных систем вещательного и прикладного телевидения, в которых передача изображения и звука осуществляется в одном направлении. Основные типы систем видеосвязи: видеотелефон, обеспечивающий связь между двумя абонентами, и системы видеоконференций, обеспечивающие одновременное участие более двух абонентов в сеансе связи.
Структурная схема типовой системы видеосвязи приведена на рис. 6.2. Система в самом общем представлении состоит из сети передачи данных и множества абонентских терминалов, соединенных с сетью передачи данных абонентскими каналами (АК). Абонентский терминал содержит средства ввода и вывода видеоинформации (видеокамеру и монитор), средства ввода и вывода звуковой информации (микрофоны, динамики и соответствующие электронные схемы). Имеются также средства ввода и вывода данных, т. е. числовой, символьной и другой информации.
Каждая составляющая информации после ввода кодируется в соответствующем кодере, а перед выводом (воспроизведением) декодируется в соответствующем декодере. Мультиплексор (Мп) объединяет кодированную передаваемую информацию перед передачей. Демультиплексор (ДМп) разделяет принятую из сети информацию на составляющие перед декодированием. Модем (модулятор-демодулятор) обеспечивает передачу и прием цифровой информации по абонентскому каналу.
В качестве абонентского терминала, как правило, используется ПК, дополненный звуковой платой, к которой подключены микрофон и громкоговорители, и платой ввода телевизионных сигналов, к которой подключена телекамера. При этом важной частью системы видеосвязи становится программное обеспечение, реализующее функции кодирования/декодирования, мультиплексирования/демультиплексирования, посылки и приема данных через сеть.
Для начала сеанса двусторонней видеосвязи один из абонентов посылает через сеть по адресу второго абонента сигнал вызова. После поступления ответного сигнала от второго абонента устанавливается связь и начинается обмен видео и звуковой информацией. Изображение и голос каждого из участников сеанса вводятся в компьютер, кодируются, объединяются в общий поток данных и передаются по сети другому участнику, который слышит голос собеседника и видит его изображение на экране монитора. При многосторонней видеосвязи (видеоконференция) на экране монитора каждого участника сеанса отображаются изображения остальных/ участников, а их голоса воспроизводятся вместе или по выбору.
В системах видеосвязи с невысоким качеством изображения используются форматы QCIF и даже SQCIF (см. § 2.3). В системах с более высоким качеством изображения используется формат CIF. Частота передачи кадров может быть от 2...5 до 12... 15 и более кадров в секунду. При этом частота кадровой развертки в мониторе существенно больше - 60..72 Гц. Согласование частоты передачи кадров по каналу связи и частоты кадровой развертки достигается путем запоминания принятого кадра в ОЗУ ПК и воспроизведения его несколько раз. Скорости передачи двоичных символов, необходимые для передачи видеоинформации указанных форматов, были даны в табл. 2.1.
Речь передается обычно с частотой дискретизации 8 кГц и числом разрядов квантования не менее 12, что дает требуемую скорость передачи двоичных символов 96 кбит/с.
Для отдельного абонента возможность передачи требуемых для видеосвязи объемов информации определяется параметрами абонентского канала. Далее даны краткие сведения об основных типах абонентских каналов.
1. Обычные телефонные линии, передача цифровых данных по которым осуществляется с помощью модемов. Как правило используются модемы, обеспечивающие скорость передачи двоичных символов до 28,8 или 33,6 кбит/с. При использовании более быстродействующих модемов (56 кбит/с и более) основным фактором, ограничивающим скорость передачи, становится недостаточно высокое отношение сигнал/шум в телефонной сети.
2. Каналы сети ISDN (Integrated Services Digital Network -цифровые сети интегрированного сервиса). Абонентский канал BRA (Basic Rate Access - Базовый доступ) представляет собой двухпроводную линию, как и в телефонной сети. С помощью одного BRA реализуются два В-канала по 64 кбит/с каждый и один служебный D-канал на 16 кбит/с. Для видеосвязи эти три канала могут объединяться, что дает 144 кбит/с. Подключение ПК к ISDN осуществляется через терминальный адаптер. ISDN такого типа называется узкополосной (N-ISDN) и, благодаря относительно невысокой стоимости, получает все более широкое распространение.
3. Широкополосная ISDN (B-ISDN), использующая асинхронный метод передачи (ATM - Asynchronous Transfer Mode).
В такой сети используются волоконно-оптические линии с пропускной способностью 155 Мбит/с и 622 Мбит/с. B-ISDN имеет высокую стоимость, и использование таких каналов доступно далеко не всем.
4. Выделенные цифровые каналы, т. е. широкополосные линии связи, например, через спутник. Например, канал типа Е1 имеет пропускную способность 2048 кбит/с. Аренда такого канала и оборудование для связи имеют высокую стоимость.
Таким образом, доступные широкому кругу пользователей каналы имеют небольшую пропускную способность, и для реализации видеосвязи необходимо сжимать передаваемые изображения и звук.
По способу коммутации можно выделить два типа сетей связи.
1. Сети с коммутацией каналов, к которым относятся обычная аналоговая телефонная сеть и цифровая сеть ISDN. В таких сетях с помощью электрических коммутаторов (контактных или бесконтактных) организуется прямое соединение между абонентами. Пропускная способность линии связи полностью используется для обмена информацией между участниками данного сеанса.
2. Цифровые сети с коммутацией пакетов. В таких сетях отсутствует электрическая коммутация. Каждый абонент сети имеет индивидуальный адрес. Пересылаемые данные организуются в виде пакетов, содержащих адрес получателя. На вход абонентского терминала поступают пакеты данных, передаваемые по сети не только этому абоненту, но и его "соседям", но принятыми могут быть только пакеты, адресованные именно этому абоненту. Примерами сетей с коммутацией пакетов являются локальные вычислительные сети (ЛВС) и Интернет.
Для абонента реальная пропускная способность сети с коммутацией пакетов зависит не только от пропускной способности абонентского канала, но и от того, какие объемы информации передаются по сети в данное время. Этот факт хорошо известен всем, кто работает в Интернет. Если в сети всегда реализуется номинальная пропускная способность, то это сеть с гарантированным качеством обслуживания. В противном случае сеть обеспечивает негарантированное качество обслуживания.
ITU разработала и утвердила ряд рекомендаций по системам видеосвязи :
- Н.320 - видеотелефония в узкополосных цифровых сетях с коммутацией каналов (N-ISDN);
- Н.321 - видеотелефония в широкополосных цифровых сетях с коммутацией каналов (B-ISDN, ATM);
- Н.322 - видеотелефония в цифровых сетях с коммутацией пакетов и гарантированным качеством обслуживания (ЛВС);
- Н.323 - видеотелефония в цифровых сетях с коммутацией пакетов и негарантированным качеством обслуживания (ЛВС, Интернет);
- Н.324 - видеотелефония в аналоговых сетях с коммутацией каналов (аналоговые телефонные сети общего пользования).
Каждая из этих рекомендаций включает набор рекомендаций, определяющих параметры отдельных частей системы видеосвязи. Например, рекомендация Н.320 включает:
- рекомендации Н.261 и Н.263 определяющие методы кодирования и декодирования видеоинформации (см. § 4.4);
- рекомендации G.711, G.722, G.728, определяющие методы кодирования и декодирования аудиоинформации (см. § 4.4);
- рекомендацию Н.221, определяющую методы мультиплексирования и демультиплексирования потоков данных;
- рекомендации Н.230, Н.242, Н.243, определяющие сигнализацию (вызов и др.), управление и контроль;
- рекомендации серии Т (Т. 120 и др.), определяющие взаимодействие программно-аппаратных средств при обмене данными.
Перспективным средством для систем видеосвязи является стандарт MPEG-4 (см. § 4.3).
Подробно с содержанием рекомендаций ITU, относящихся к системам видеосвязи, а также с примерами практической реализации таких систем можно ознакомиться в [18].
6.3. Цифровое прикладное телевидение
Системы прикладного телевидения предназначены для передачи и приема изображений в промышленности, науке, образовании, медицине, военном деле, обеспечении безопасности и других областях деятельности человека. Главным отличием систем прикладного телевидения от систем ТВ-вещания является ограниченное количество получателей информации. Поэтому в прикладном телевидении нет необходимости в такой жесткой стандартизации параметров разверток и сигналов, как в ТВ-вещании.
Цифровые технологии в прикладном телевидении используются в первую очередь для сжатия видео и аудиоинформации с целью передачи по узкополосным каналам связи и записи в ЗУ и для анализа изображений с целью автоматизации некоторых функций системы.
В качестве примера рассмотрим систему наблюдения, разработанную фирмой Intelligent Instruments Corporation, США [25]. Система обеспечивает наблюдение за многими зонами, расположенными в разных частях города, автоматически выбирает для показа оператору зону, в которой что-то происходит и обладает другими полезными свойствами.
Система состоит (рис. 6.3) из центральной станции ЦС и многих периферийных станций ПС, подключенных к сети ISDN через блоки управления и связи (БУиСв). Каждая периферийная станция содержит ТВ-камеру, кодер изображения (видеокодер), блок ввода/вывода звука (В/В звука), кодер/декодер звука (кодек звука), ЗУ. Центральная станция содержит декодер изображения (Декодер видео), монитор и указанные выше блоки звукового канала. БУиСв на ЦС выполняется на основе ПК, а на каждой ПС -на основе микропроцессоров.
В процессе наблюдения в каждой ПС видеосигнал записывается в ЗУ, которое все время содержит несколько последних кадров, сжатых методом JPEG. Каждый новый кадр сравнивается с запомненным предыдущим с целью обнаружения изменений, которые могут быть результатом наличия движения в наблюдаемой зоне. При обнаружении движения данная ПС устанавливает через ISDN связь с ЦС и начинает пересылать в реальном времени движущееся изображение, сжатое в соответствии с Рекомендацией Н.261.
Оператор на ЦС наблюдает полученное изображение на экране монитора. Он может также слышать звуки и устанавливать голосовую связь с людьми в наблюдаемой зоне. При необходимости оператор может вызвать пересылку с ПС запомненного неподвижного изображения высокого качества (не в реальном времени).
6.4. Цифровое телевидение и компьютерные технологии
Переход к цифровому представлению видеосигналов и сигналов звукового сопровождения и появление методов многократного сжатия данных, рост производительности и объемов ЗУ персональных компьютеров и рабочих станций при одновременном снижении их стоимости, стремительное развитие Интернет и других сетевых технологий создают предпосылки для широкого применения вычислительной техники в различных частях телевизионных систем. Ниже приведены несколько примеров таких применений.
СИСТЕМЫ НЕЛИНЕЙНОГО МОНТАЖА
Одна из важнейших областей применения компьютеров в телевидении - системы редактирования и монтажа видеоматериалов и подготовки телевизионных программ.
Сначала рассмотрим традиционную схему монтажа на основе видеомагнитофонов (рис. 6.4,а). Исходные видеоматериалы в аналоговой или цифровой формах записаны на видеокассеты и воспроизводятся видеомагнитофонами ВМ1 и ВМ2 (источников монтируемых видеоматериалов может быть и больше). Видеосигналы поступают на устройство, выполняющее функции микшера и формирователя видеоэффектов. Полученный в результате монтажа видеосигнал записывается на видеомагнитофон ВМЗ. Система содержит также не показанные на рисунке мониторы для контроля воспроизводимых и записываемых видеопрограмм.
Система монтажа позволяет в требуемом порядке записывать фрагменты видеоматериалов. При этом видеомагнитофоны ВМ1 и ВМ2 необходимо включать и выключать, перематывать ленту и т.д. Формирователь видеоэффектов дает возможность вводить в изображение текст и графику и создавать плавные переходы от одного фрагмента к другому, например, путем постепенного вытеснения одного изображения другим. Возможно наложение одного изображения на другое (фрагмент А2+В2 в смонтированном видеоматериале) с применением рир-проекции.
Традиционный видеомонтаж называется линейным, так как видеомагнитофоны обеспечивают последовательный доступ к ин-формации, и для того, чтобы найти какой-либо фрагмент на ленте, необходимо перемотать ее до нужного места.
Система нелинейного монтажа (рис. 6.4,6) содержит один или несколько цифровых видеомагнитофонов (ВМ) для хранения исходных материалов и конечного продукта. Центром системы является высокопроизводительный ПК или рабочая станция (компьютер, по производительности и объему ЗУ значительно превосходящий обычные ПК), имеющий монитор с экраном, обеспечивающим высококачественное отображение нескольких кадров и различной вспомогательной информации.
Фрагменты телевизионных программ, подлежащие редактированию и монтажу, вводятся в компьютер с помощью специальной платы ввода/вывода (платы "захвата" видеосигналов), сжимаются и записываются на жесткие магнитные диски (НМД). Для сжатия обычно применяется метод Motion JPEG, в соответствии с которым каждый кадр кодируется независимо от других кадров. Это дает возможность индивидуального доступа к отдельным кадрам. Операция сжатия в реальном времени выполняется аппаратными средствами в плате компрессии/декомпрессии и видеоэффектов.
Хранение редактируемых материалов на диске дает возможность быстро находить и переставлять в произвольном порядке фрагменты изображения и отдельные кадры, составляя нужную видеопрограмму (рис. 6.4,в). При этом процесс монтажа значительно ускоряется и возникают новые возможности, недоступные в ранее применявшихся системах. Операции повышения качества изображения путем коррекции цвета, фильтрации шумов и т. д., « ввода в изображение текста и графики, синтеза искусственных изображений и видеоэффектов и др. выполняются как аппаратными средствами, так и программно центральным процессором (ЦП).
Выполнение всех операций внутри компьютера позволяет избежать потерь качества при многократной перезаписи, неизбежных.; даже при цифровой видеозаписи из-за дефектов магнитных лент. На последней стадии подготовки программы производится ее сжатие для записи на видеодиск или трансляции. Процесс сжатия контролируется оператором, который может регулировать степень сжатия, корректировать положения кадров и размеры групп кадров и выполнять другие действия для получения наилучшего качества изображения.
Снижение стоимости устройств ввода видеосигналов и кодирования по стандарту MPEG-2 постепенно делает системы нелинейного цифрового монтажа доступными для небольших телевизионных и мультимедийных компаний и даже для любителей.
ВИДЕОСЕРВЕРЫ
Видеосерверы - новый класс устройств, появившийся с началом перехода к цифровому телевидению. Видеосервер - это компьютер, существенно превосходящий по производительности обычные компьютеры и содержащий дисковую память большого объема и блоки ввода/вывода аналоговых и цифровых ТВ-сигналов и звуковых сигналов. На современных телестудиях видеосерверы заменяют видеомагнитофоны и становятся основным средством воспроизведения заранее записанных видеопрограмм.
На рис. 6.5 показаны структура видеосервера и его связи с остальным студийным оборудованием. Видеосервер содержит блок памяти на жестких магнитных дисках большого объема (ДЗУ), центральный процессор ЦП, ОЗУ, блоки вывода потоков данных (БВПД), блоки связи с видеомагнитофонами (БСВМ), блок вывода на монитор (БВМ). Выходы БВПД подключаются ко входам трактов передачи ТВ-программ (ТПП). К видеосерверу подключаются также цифровые или аналоговые видеомагнитофоны (ВМ), монитор, локальная вычислительная сеть (ЛВС) и другие устройства, не показанные на рисунке. Помимо аппаратной части, видеосервер содержит также специализированное программное обеспечение.
На телестудии записанные на видеокассеты (в цифровой или аналоговой форме) видеопрограммы хранятся в Архиве видеокассет, который может быть автоматизирован и роботизирован. Видеопрограммы, которые предполагается передавать в ближайшее время, с помощью видеомагнитофонов переписываются с видеокассет в ДЗУ. При этом выполняется сжатие видео и аудиоинформации. Степень сжатия задается в соответствии с требуемым качеством изображения и звука. В процессе передачи видеопрограммы ее данные считываются из ДЗУ и через БВВП поступают в тракт передачи ТВ-программ, в котором выполняются формирование транспортного потока, скремблирование и помехоустойчивое кодирование, после чего поток данных направляется на передатчик.
Каждый БВПД может независимо считывать данные из ДЗУ и направлять их на соединенный с ним тракт передачи ТВ-программ. Это позволяет одновременно воспроизводить нескольких записанных в ДЗУ видеопрограмм. Для каждой из этих видеопрограмм обеспечиваются такие возможности, как стоп-кадр, ускоренное или замедленное воспроизведение, перемотка вперед или назад. Таким образом, один видеосервер выполняет (эмулирует) функции сразу нескольких независимых видеомагнитофонов (виртуальных видеомагнитофонов). Возможна параллельная передача нескольких копий одной и той же видеопрограммы со сдвигом во времени. При этом в ДЗУ записывается только один экземпляр этой видеопрограммы, и воспроизведение нескольких ее копий осуществляется путем одновременного формирования нескольких потоков данных, считываемых разными БВПД из разных мест ДЗУ.
Видеосервер может использоваться также для записи поступающих по ЛВС или по другим линиям связи цифровых ТВ сигналов от различных источников (видеокамеры, кабельные и спутниковые каналы ТВ-вещания и т.д.) с последующей перезаписью на видеокассеты, для выполнения нелинейного видеомонтажа с записью смонтированной программы на видеокассеты и для других операций. Вывод данных может производиться и через ЛВС.
Видеосерверы должны удовлетворять следующим требованиям:
- высокая надежность, достигаемая резервированием основных узлов, в первую очередь жестких магнитных дисков;
- модульный принцип построения, позволяющий постепенно наращивать объем ДЗУ, число одновременно передаваемых видеопрограмм, функциональные возможности;
- совместимость с существующим студийным оборудованием. Использование видеосерверов позволяет автоматизировать
ТВ-вещание и существенно увеличить количество одновременно передаваемых телевизионных каналов, что является одной из основных целей перехода на цифровое ТВ-вещание. При этом сокращаются (в расчете на один передаваемый канал) занимаемые студийным оборудованием площади, количество обслуживающего персонала, расход электроэнергии. Применение видеосервера становится экономически выгодным, если его стоимость в расчете на один канал меньше стоимости обычного студийного видеомагнитофона.
Видеосерверы выпускаются многими фирмами, и на рынке есть системы разных уровней сложности и стоимости. В качестве примера можно назвать систему MAV-1000 фирмы Sony, которая обеспечивает хранение видеопрограмм длительностью 11 или 23 часа (в зависимости от конфигурации), одновременную передачу до восьми каналов ТВ-вещания. Другая известная компания IBM производит мощный видеосервер MediaStreamer, содержащий дисковую подсистему MediaStreamer Archive емкостью до 6 Тбайт данных (что соответствует примерно 1000 двухчасовых видеофильмов). Стоимость этого видеосервера от 129 тыс. долл.
ИНТЕРАКТИВНОЕ ТЕЛЕВИДЕНИЕ
В системах интерактивного ТВ пользователь имеет возможность воздействовать на источник принимаемой им ТВ-программы, передавая команды или данные по обратному каналу на головную станцию системы. Интерактивные телевизионные системы смогут предоставлять своим абонентам ряд новых услуг:
- передачу видеопрограмм по заказу абонентов (Video-on-Demand - Видео по заказу);
обучение, доступ к библиотекам и базами
- выполнение банковских операций на дому; pax, конкурсах викторинах и т. д
В системах интерактивного ТВ применяются три основных способа организации обратных каналов.
1. Использование существующих телефонных сетей общего пользования. В этом случае соединение абонента с головной станцией и передача данных от абонента могут осуществляться обычным образом (набор номера и т. д.) или с применением какой-либо автоматизации.
2. Организация обратных каналов в существующих системах кабельного ТВ. Как правило, для этого используется диапазон частот 5..40 МГц, в котором нет ТВ-каналов. Передача данных в этом диапазоне от многих абонентов системы осуществляется с применением частотного, временного или других способов разделения.
3. Передача обратной информации по радиоканалу. В этом случае в телевизор может быть встроен миниатюрный абонентский передатчик. Возможно использование систем подвижной связи на базе низколетящих спутников. Например, по проекту ISIDE, разрабатываемому по инициативе Европейского космического агентства, передача обратной информации осуществляется на частоте 30 ГГц с использованием абонентского передатчика мощностью 1 Вт. Для передачи отведена полоса частот 500 МГц, в пределах которой расположены 625 несущих с разносом 0,8 МГц. Каждая несущая модулируется с применением 16-позиционной частотной манипуляции и обеспечивает обратный цифровой канал передачи данных со скоростью 64 кбит/с.
Различные виды сервиса в системах интерактивного ТВ требуют разных уровней пропускной способности обратных каналов. Для проведения видео- и аудиоконференций необходимы высокоскоростные каналы с пропускной способностью порядка 64 кбит/с. Для выполнения торговых и банковских операций, участия в телеиграх и конкурсах требуются среднескоростные каналы с пропускной способностью порядка 6...7 кбит/с. Для передачи заказов на видеопрограммы, а также для участия в опросах и голосованиях могут использоваться низкоскоростные каналы связи с пропускной способностью порядка 150 бит/с.
Одним из первых типов систем интерактивного ТВ, получивших достаточно широкое распространение, стали системы Видео по заказу. Обычно такие системы реализуются на базе существующих систем кабельного ТВ. Пользователи вносят абонементную плату или оплачивают счета за реально просмотренные ими видеопрограммы.
Абонент выбирает интересующую его видеопрограмму в меню, отображаемом на экране его телевизора, и посылает заказ на головную станцию. В идеальном случае он сразу начинает получать заказанную видеопрограмму по одному из ТВ-каналов. При этом в абонентскую приставку должны поступить с головной станции номер ТВ-канала, по которому будет идти передача, идентификаторы для выделения из транспортного потока пакетов с видео- и аудиоданными заказанной видеопрограммы, ключ для дескремблирования. Все эти данные, включая меню, могут быть переданы с головной станции по телевизионному кабелю, по телефонной сети или по какому-либо другому каналу связи. Например, эти данные могут передаваться в особых пакетах транспортного потока в одном из ТВ-каналов.
Число абонентов, которые могут одновременно получить такое идеальное обслуживание, определяется, во-первых, возможностями видеосервера на головной станции системы интерактивного ТВ, а во вторых, количеством ТВ-каналов, которые могут одновременно передаваться по кабельной сети. Очевидно, что для создания системы, способной обслужить достаточно много абонентов, необходимо использование достижений цифрового ТВ.
Системы интерактивного ТВ начали свое распространение с гостиниц. Помимо Видео по заказу такие системы предоставляют возможность получения информации о гостинице, заказа блюд и напитков в номер, вызова такси и т.п.
ТЕЛЕВИДЕНИЕ И ИНТЕРНЕТ
Интернет (как синоним часто используется термин Сеть) объединяет бесчисленное множество локальных вычислительных сетей и индивидуальных пользователей по всей Земле. Основой Интернет являются протоколы передачи данных FTP и ТСРЯР, в соответствии с которыми данные передаются пакетами, каждый из которых снабжается адресом получателя. Пакеты с данными передаются по Сети от одного узла к другому, пока не доходят до заданного адреса.
Возможны два основных варианта передачи видео- и аудиоинформации через Интернет.
Первый вариант заключается в получении ("скачивании") из Сети файлов, содержащих в сжатом виде видеопрограммы со звуковым сопровождением, и последующее воспроизведении этих файлов на компьютере. Скачивание файла может занимать существенно большее время, чем длительность воспроизведения. Размеры получаемых таким образом файлов обычно ограничены свободным объемом жесткого диска компьютера, реальной скоростью передачи данных и другими факторами. Такой вид сервиса нельзя назвать передачей ТВ-программ через Интернет.
Второй вариант предполагает получение через Сеть сжатых видео- и аудиоданных со скоростью, позволяющей в реальном времени воспроизводить движущиеся изображения и звук. Качество изображения определяется реальной пропускной способностью Сети на всем протяжении пути от видеосервера, который является отправителем данных, до компьютера получателя видеопрограммы.
Встречаются утверждения, что для получения изображения достаточно хорошего качества достаточно иметь пропускную способность не менее 28,8 кбит/с. Однако такая скорость передачи двоичных символов может обеспечить лишь изображение формата SQCIF с сильно пониженной частотой передачи кадров. Для получения действительно приемлемого качества изображения даже при использовании мощных методов сжатия из стандарта MPEG-4 необходимо, чтобы реальная пропускная способность была не менее 128 кбит/с, что требует подключения абонента по крайней мере к сети N-ISDN.
Обеспечение более-менее полноценного ТВ-вещания через Интернет требует решения следующих задач:
1. Увеличение пропускной способности каналов связи, доступных массовому пользователю. Один из путей решения этой задачи - использование для подключения к Интернет сети кабельного ТВ. Для этого у абонентов устанавливаются кабельные модемы, обеспечивающие скорость передачи по прямому каналу до 30 Мбит/с и создание обратного канала с пропускной способностью от 64 кбит/с до 1,5 Мбит/с.
2. Обеспечение передачи данных по всему пути от источника до получателя с гарантированным качеством обслуживания.
3. Обеспечение возможности многоадресной передачи данных, когда данные от одного источника (видеосервера) одновременно направляются многим адресатам.
Решение последних двух задач связано с введением новых протоколов передачи информации через Интернет, таких как RTP - Realtime Transport Protocol (Транспортный протокол реального времени).
ИНТЕГРАЦИЯ ФУНКЦИЙ ТВ-ПРИЕМНИКОВ И ПК
Персональные компьютеры, число которых в домах быстро увеличивается, могут использоваться для приема и воспроизведения телевизионных программ. Специальные платы, вставляемые в свободный разъем магистрали ПК и содержащие необходимые для приема аналоговых сигналов изображения и звука схемы блоков высокой и промежуточной частот, демодуляции, декодирования сигналов цветности и воспроизведения принятого телевизионного изображения синхронно с разверткой монитора ПК известны уже относительно давно. Для приема сигналов цифрового телевидения такие устройства должны дополнительно содержать узлы для декодирования, дескремблирования и т.д. (см. рис. 6.1).
В 1997 г. лидеры в сфере производства компьютеров и программного обеспечения для них фирмы Microsoft, Intel и Compaq (США) выступили с проектом, получившим название DVT (Digital Video Team). Суть проекта заключается в организации массового выпуска специальных плат для приема и декодирования сигналов цифрового телевидения и воспроизведения телевизионных изображений с нормальной четкостью для уже существующих компьютеров и установки этих узлов на системных платах новых моделей компьютеров, чтобы практически каждый компьютер мог использоваться в качестве приемника цифрового телевидения. При этом часть функций по декодированию данных может выполняться программно, что позволит упростить аппаратную часть.
Одна из целей, намеченных в проекте DVT, это обеспечение возможности передачи и приема телевизионных программ по компьютерным сетям. Применение компьютера позволит значительно расширить возможности интерактивных телевизионных систем, в которых информация идет не только к зрителю, но и от него на телевизионную студию. Абоненты компьютерных сетей смогут получать не только тексты и неподвижные изображения, но и движущиеся изображения нормального вещательного качества со звуковым сопровождением. Это даст возможность смотреть фильмы, записанные в серверах сети, получать полноэкранные учебные, рекламные, спортивные и другие программы.
Следует отметить, что параметры изображения на экране монитора компьютера не совсем эквивалентны параметрам изображения на экране обычного телевизионного приемника. Размеры экрана монитора, как правило, меньше, чем у телевизора, так как
монитор рассчитан на положение оператора на небольшом расстоянии. В мониторах компьютеров применяется прогрессивная развертка. Поэтому необходимо преобразование передаваемых с чересстрочной разверткой телевизионных изображений. Наконец, количества строк и элементов основных графических стандартов VGA и SVGA не соответствуют этим параметрам телевизионных изображений. В силу этих и ряда других причин полная замена телевизоров на компьютере вряд ли произойдет, но определенная часть телезрителей видимо будет использовать компьютер для приема телевизионных программ по различным каналам связи.
Другой вариант совмещения функций телевизионного приемника и абонентского устройства Интернет заключается в дополнении обычного телевизионного приемника не только декодирующим устройством MPEG-2, но и клавиатурой и микропроцессором для обеспечения работы в Сети. При этом клавиатура должна быть связана с телевизионным приемником по беспроводному каналу, например, с помощью ИК-лучей, чтобы пользователь мог свободно выбирать удобное место для работы на достаточном расстоянии от телевизионного экрана.
Таким образом, происходит постепенное сближение традиционного телевизионного вещания с компьютерными информационными сетями.
6.5. Перспективы развития цифрового телевидения
ПРОЕКТ MPEG-7
Широкое распространение компьютеров и Интернет, а с другой стороны - бытовых видеокамер и другой видеотехники привело к тому, что производство и распространение аудиовизуальной информации становятся доступными массовому пользователю. В результате каждый день в мире производится огромный объем такой информации и задача ее идентификации и поиска в Интернет стала актуальной.
Для решения этой задачи группа MPEG в 1996 г. начала работу над проектом "Интерфейс описания мультимедийного содержания" (Multimedia Content Description Interface), известного сейчас как MPEG-7. По плану проект международного стандарта
должен быть готов к июлю 2001 г., а утвержден - в сентябре 2001 г. [26]
MPEG-7 направлен на создание средств описания содержания видео- и аудиофайлов, т. е. на решение совсем другой задачи, чем предыдущие стандарты группы MPEG. Эти средства должны быть стандартизированы для различных типов аудиовизуальной информации, включая любые неподвижные и движущиеся изображения, речь, музыку, графику, 3-мерные модели и синтезированные звуки, независимо от формата представления.
Между MPEG-7 и MPEG-4 имеется связь, так как описание содержания аудиовизуальной информации будет основано на понятиях аудиовизуальных объектов и состоящих из них сцен. В MPEG-4 есть возможность задавать описание для каждого объекта, a MPEG-7 даст правила построения таких описаний.
Основные понятия MPEG-7:
1. Дескриптор (Descriptor - описатель) - описание объекта.
2. Схема описания (Description Scheme) - структура, содержащая описания отдельных объектов и взаимосвязей между ними.
3. Язык определения описаний (Description Definition Language - DDL) - язык, с помощью которого составляются схемы описаний.
Непосредственно в стандарте будут содержаться DDL, набор дескрипторов объектов и набор схем описаний. С помощью DDL можно будет составлять новые описания сцен, используя как дескрипторы, определенные в стандарте, так и вновь создаваемые по заданным правилам.
Содержание одной и той же аудиовизуальной информации может быть описано на разных уровнях детальности, начиная с низкого уровня (цвет, форма, текстура, положение визуальных объектов, высота тона, громкость, темп, положение звуковых объектов и т. п.), и заканчивая высоким уровнем, на котором описание может быть задано в виде обычного текста на естественном языке (семантическое описание), например, "Сцена, в которой присутствуют четверо молодых мужчин в черных пиджаках без воротников, с темными волосами, закрывающими лицо почти до глаз. Трое играют на гитарах и поют, четвертый стучит по барабанам...".
Кроме того, описание должно включать сведения об авторах аудиовизуального материала, дате его создания, условиях доступа, формате записи или кодирования и т.п. Поиск аудиовизуальной информации будет осуществляться путем составления запроса, содержащего набор ключевых дескрипторов, так же как сейчас осуществляется поиск текстов по ключевым словам. Примеры возможных вариантов такого поиска:
- задав несколько нот, получить список музыкальных произведений, которые содержат такую последовательность;
- нарисовав несколько линий на экране, получить список рисунков содержащих данный фрагмент;
- задав форму и текстуру объекта, получить список содержащих его изображений,, а добавив сведения о движении, получить список подходящих видеопрограмм;
- задав образец голоса певца, получить список аудио- и видеофайлов, содержащих его записи.
Чтобы аудиовизуальная информация могла быть найдена, для нее необходимо предварительно составить описание. Эта процедура включает выделение объектов и их характеристик, создание дескрипторов, отсутствующих в стандартном наборе и составление схемы описания на языке DDL. Перечисленные операции могут выполняться вручную, полуавтоматически или автоматически, причем, чем выше уровень абстракции описания, тем труднее автоматизировать его составление. Описание может затем храниться вместе с аудиовизуальной информацией, для которой оно составлено, или отдельно, например, в специальных базах данных.
Отметим, что стандарт MPEG-7 не будет содержать средства выделения объектов и их характеристик, средства полуавтоматического или автоматического составления описаний, правила построения баз данных для описаний и средства выполнения поиска. Как уже указывалось, основное его содержание - язык DDL.
Может возникнуть вопрос, а какое отношение имеет будущий стандарт MPEG-7 к телевидению? Ответ: MPEG-7 станет мощным средством поиска интересующих пользователя видеопрограмм в Интернет, а также в видеотеках и архивах систем интерактивного телевидения.
ТВЧ, СТЕРЕО-ТВ, ЧТО ДАЛЬШЕ?
Одним из важнейших достижений в области телевидения самого последнего времени стало принятие Рекомендации ITU-R ВТ-709-3, которая определяет единый формат для телевидения высокой четкости (ТВЧ) и производства видеопрограмм. Основные параметры этого формата:
- формат кадра 16:9;
- число активных (видимых на экране) элементов изображения в строке 1920;
- полное число строк 1125, из них активных - 1080;
- частота кадров 24, 25 или 30 Гц при чересстрочной развертке, частота полей при чересстрочной развертке или частота кадров при прогрессивной развертке 50 или 60 Гц.
Новый единый формат обеспечит международный обмен телевизионными передачами и производство кинофильмов путем видеозаписи (электронный кинематограф).
В США быстрыми темпами разворачивается ТВЧ-вещание. Параметры изображения соответствуют указанной выше Рекомендации. Сжатие изображения осуществляется по стандарту MPEG-2 до номинальной скорости передачи двоичных символов 18,9 Мбит/с. Сжатие звука выполняется по стандарту Долби АС-3 до номинальной скорости передачи двоичных символов 384 кбит/с при 5,1-канальном звуке. Транспортный поток основан на стандарте MPEG-2 и включает дополнительные пакеты с различной информацией. Передача транспортного потока по наземным (эфирным) каналам связи с шириной полосы 6 МГц осуществляется с применением решетчатого канального кодирования и 8-позиционной АМн с частичным подавлением одной боковой полосы (8-VSB modulation). Для передачи по кабельным каналам с шириной полосы 6 МГц применяется 16-позиционная АМн (16-VSB). Развитие ТВЧ в Европе происходит в рамках проекта DVB. Следующим шагом развития телевидения может быть переход к стереотелевидению, в котором правый и левый глаза зрителя получают, соответственно, правое и левое изображения стереопары, и у зрителя возникает ощущение объемности наблюдаемого изображения. Стерео-ТВ требует передачи двух видеосигналов.
Далее возможен и переход к многоракурсному телевидению, в котором наблюдаемое зрителем изображение зависит от положения зрителя относительно воспроизводящего устройства. Для реализации такой системы необходимо передавать информацию о вариантах изображений, наблюдаемых при разных положениях зрителя.
Современное развитие цифрового телевидения делают вполне возможной передачу сигналов стерео-ТВ и даже многоракурсного ТВ по обычным каналам ТВ-вещания. Основные проблемы внедрения стерео-ТВ лежат в области создания удобных в эксплуатации и доступных по цене устройств отображения.
ЦИФРОВОЕ ТЕЛЕВИДЕНИЕ В РОССИИ
В 1999 г. Госкомсвязи Российской Федерации одобрил "Концепцию внедрения цифровых наземных систем звукового и телевизионного вещания в России" [27]. В основе концепции лежит принцип создания в сетях вещания интегрированного транспортного потока для передачи как вещательных программ, так и мультимедийной и другой информации.
Внедрение цифрового телевидения в России предполагается осуществить в два этапа. На первом этапе создаются несколько опытных участков со смешанным (аналоговым и цифровым) вещанием для практической проверки и выбора методов и параметров. Результатом первого этапа должны стать адаптация международных стандартов к условиям России и выработка временных норм на цифровое вещание.
На втором этапе должны быть утверждены стандарты на цифровое ТВ- и звуковое вещание, после чего может начаться их массовое внедрение.
Контрольные вопросы
1. Какие стандарты, помимо MPEG-2, лежат в основе системы DVB?
2. Какие виды модуляции используются в DVB-C и DVB-S?
3. Что затрудняет развитие наземного цифрового ТВ-вещания?
4. От чего зависит скорость передачи двоичных символов полезной информации в канале DVB-T?
5. Что такое одночастотная сеть цифрового ТВ-вещания?
6. Что такое "Сотовое телевидение"?
7. Что нового могут цифровые методы дать прикладному телевидению?
8. Какие преимущества обеспечивает нелинейный монтаж по сравнению с линейным?
9. Для чего могут использоваться видеосерверы?
10. Какими способами могут быть организованы обратные каналы в системах интерактивного ТВ?
11. Для чего могут быть полезны кабельные модемы?
12. Что является основным содержанием проекта MPEG-7?
13. Назовите основные параметры единого формата ТВЧ.
Словарь терминов и сокращений
Адаптивное распределение битов (англ. adaptive bit allocation) - распределение битов при квантовании, например, по частотным поддиапазонам, выполняемое в зависимости от параметров кодируемого фрагмента сигнала. (§ 4.2.2 и 4.4)
АДИКМ - адаптивная дифференциальная импульсно-кодовая модуляция (англ. ADPCM). Разновидность ДИКМ, в которой шаг квантования и параметры предсказания изменяются в зависимости от текущих свойств кодируемого сигнала. (§ 3.5)
Амплитудная манипуляция (АМн) - один из видов модуляции, применяемый при передачи цифровых сигналов. Заключается в дискретном изменении амплитуды несущей. (§ 5.3)
Арифметическое кодирование - один из видов кодирования с переменной длиной кодовых слов. Теоретически обеспечивает достижение наибольшей эффективности кодирования без потерь. АЦП - аналого-цифровой преобразователь.
БИХ-фильтр - фильтр с бесконечной импульсной характеристикой. То же, что рекурсивный цифровой фильтр. (§ 3.2)
БПФ - быстрое преобразование Фурье. Так называются алгоритмы ускоренного выполнения ДПФ. (§ 3.1)
Вектор движения (Вектор смещения) - пара чисел, выражающих найденные в результате оценки движения смещения блока изображения по двум пространственным координатам. (§ 3.4 и 4.2.1)
Векторное квантование - замена группы отсчетов сигнала или группы элементов изображения на наиболее близкую по заданному критерию группу отсчетов (элементов), называемую эталонным вектором. Все эталонные векторы предварительно занесены в кодовую книгу. (§ 3.6)
Видеоконференцсвязь - система видеосвязи, обеспечивающая обмен в реальном времени видеоинформацией и звуком между несколькими абонентами. (§ 6.2)
Видео по заказу (англ. Video-on-Demand) - один из новых видов систем ТВ-вещания, в которых абонент может заказать передаваемую программу. (§ 6.4)
Видеопоследовательность (video sequence) - самая крупная структурная единица потока видеоданных MPEG-1, MPEG-2. Встречается также название "видеоряд".
Видеосервер - устройство на базе компьютера для хранения и воспроизведения аудиовизуальной информации. С видеосервера производится передача ТВ-программ. (§ 6.4)
Видеостык - название интерфейсов для передачи цифровых ТВ-сигналов в соответствии с Рекомендацией ITU-R ВТ 601, в которой определены параллельный видеостык и последовательный видеостык. (§ 2.2)
Видеотелефон - один из видов видеосвязи, обеспечивающий обмен в реальном времени видеоинформацией и звуком между двумя абонентами. (§ 6.2)
Внутрикадровое кодирование (англ. intraframe) - сжатие видеоинформации в одном отдельно взятом кадре, основанное на уменьшение внут-рикадровой избыточности. (§ 4.2)
Вэйвлет-преобразование - ортогональное одномерное или двумерное преобразование, в результате которого исходный сигнал разделяется на составляющую с низкой разрешающей способностью и составляющую с высокой разрешающей способностью. (§ 3.3)
Гамма-коррекция - нелинейное преобразование телевизионных сигналов, выполняемое с целью коррекции нелинейностей передаточных характеристик различных узлов телевизионной системы, например, кинескопа. Одновременно гамма-коррекция способствует уменьшению влияния квантования на качество изображения. (§2.1, 2.2) Гибридное кодирование - метод кодирования движущихся изображений, используемый в MPEG-1, MPEG-2, MPEG-4 и сочетающий внутри-кадровое и межкадровое кодирование. (§ 4.2)
Головная станция - станция, с которой ведется вещание в системах кабельного ТВ, интерактивного ТВ и т. д.
Деквантование - операция, обратная квантованию. В результате декван-тования увеличивается число уровней квантования, которыми представляются значения отсчетов цифрового сигнала или другой информации.
Декодер - устройство, в котором выполняется декодирование.
Декодирование - операция, обратная кодированию. В результате декодирования информация преобразуется к виду, который она имела до соответствующего кодирования. Декомпрессия - операция, обратная компрессии.
Дематрицирование - операция, обратная матрицированию. Исходные сигналы вычисляются как суммы взятых с определенными коэффициентами сигналов, полученных при матрицировании.
Демодуляция - операция, обратная модуляции. В результате демодуляции (часто называемой детектированием) восстанавливается модулирующий сигнал. Дескремблирование - операция, обратная скремблировананию. Восстановление исходного порядка следования информации.
Децимация - см. Прореживание.
ДИКМ - дифференциальная импульсно-кодовая модуляция (англ. DPCM). Также называют "Кодирование с предсказанием". Вид ИКМ, в котором на основе значений одного или нескольких предшествующих отсчетов сигнала формируется предсказанное значение текущего отсчета, а по каналу связи передается ошибка предсказания - разность истинного и предсказанного значений текущего отсчета сигнала. (§ 3.5)
Дискретизация - представление непрерывного сигнала последовательностью его значений (отсчетов или выборок), следующих через определенные интервалы времени. В случае дискретизации изображения, последнее представляется матрицей отсчетов, заданным образом расположенных в плоскости изображения. (§ 2.1, 2.2)
Дискретная частота - частота дискретного сигнала, измеряемая в долях частоты дискретизации. (§ 3.1)
ДКП - дискретное косинусное преобразование. (§ 3.1)
ДПФ - дискретное преобразование Фурье. (§ 3.1)
Заголовок (англ. header) - начальная часть структурной единицы потока данных. Как правило содержит синхрогруппу - один или более символов, по которым начало заголовка можно распознать в потоке данных.
Иерархическая модуляция - способ модуляции, применяемый в DVB-T. Более важная для получения устойчивого изображения информация передается с более высокой помехозащищенностью. (§6.1)
Избыточность изображения - наличие в изображении составляющих, которые могут быть отброшены без существенного ухудшения визуально воспринимаемого качества воспроизводимого изображения. (§ 2.4)
ИКМ - импульсно-кодовая модуляция (англ. РСМ). Способ передачи информации в цифровой форме. Цифровой код каждого отсчета сигнала передается по каналу связи в виде последовательности импульсов.
Интерактивное телевидение - ТВ-системы, в которых зритель может воздействовать на получаемую им программу, передавая сигналы по обратному каналу на головную станцию. (§ 4.3, 6.4)
Интерполяция - 1) преобразование дискретного сигнала в непрерывный, путем заполнения по определенному правилу промежутков времени (или в случае изображений - пространства) между отсчетами дискретного сигнала; 2) увеличение количества отсчетов дискретного сигнала путем введения между отсчетами исходного дискретного сигнала дополнительных отсчетов, значения которых определяются по заданным правилам. (§2.1,3.3)
Кабельный модем - модем, с помощью которого компьютер подключается к сети кабельного ТВ, что обеспечивает высокую скорость передачи данных. (§ 6.4)
Кадр - 1) в телевидении кадрами называются передаваемые и воспроизводимые одно за другим неподвижные изображения. Если частота передачи кадров достаточно велика, зритель воспринимает наблюдаемое изображение как непрерывно движущееся. При передаче кадры раскладываются на строки; 2) во многих случаях кадрами называют структурные единицы потока данных, например, звуковые кадры.
Кадровое кодирование - один из режимов кодирования видеоинформации с чересстрочной разверткой в стандартах MPEG-1, MPEG-2. В этом режиме в каждый макроблок входят элементы изображения из обоих полей кадра. (§ 4.2.1)
Канальное кодирование - кодирование, выполняемое непосредственно перед передачей информации по каналу связи, часто совмещаемое с модуляцией. Обычно имеет целью повышение помехоустойчивости, исключение идущих слишком много раз подряд символов "1" или "О" и т. д. (§5.2,5.3,6.1)
Квадратурная амплитудная манипуляция (КАМн) - один из видов модуляции, применяемый при передачи цифровых сигналов. Дискретно изменяются амплитуды двух квадратурных составляющих (cos и sin) несущей. (§ 5.3)
Квантование - 1) преобразование непрерывного или дискретного сигнала путем округления каждого его значения до ближайшего уровня квантования; 2) при квантовании сигнала, уже представленного в цифровой форме, может уменьшаться количество битов на каждый отсчет сигнала.
КЗФ - квадратурные зеркальные фильтры (англ. - QMF). Пара цифровых фильтров, имеющих взаимно-зеркальные АЧХ. Пара КЗФ позволяет разделить исходный цифровой сигнал на два сигнала частотных поддиапазонов, соответствующих нижней и верхней половинам его полосы частот, а пара обратных фильтров позволяет восстановить исходный сигнал по двум сигналам частотных поддиапазонов. (§ 3.3)
КИХ-фильтр - фильтр с конечной импульсной характеристикой. То же, что нерекурсивный цифровой фильтр. (§ 3.2)
Кодек - устройство, которое может выполнять как функции кодера, так и функции декодера.
Кодер - устройство, в котором выполняется кодирование.
Кодирование - 1) представление результата квантования каждого отсчета дискретизированного сигнала двоичным числом по определенному правилу; 2) преобразование информации с какой-либо целью путем замены групп символов на другие группы символов по определенным правилам. Целями кодирования могут быть сокращение избыточности или сжатие информации, повышение помехоустойчивости, защита информации от доступа нежелательных лиц и т. д.
Кодирование по Хаффмену - вариант кодирования с переменной длиной кодовых слов. Основан на алгоритме построения кодовой таблицы для кодирования данных с известными вероятностями появления всех символов. Обеспечивает высокую эффективность кодирования передаваемой информации.
Кодирование с переменной длиной кодовых слов (Кодирование словами переменной длины, англ. VLC) - энтропийное кодирование. Уменьшение объема передаваемой информации достигается за счет того, что более вероятные символы представляются более короткими кодовыми словами.
Кодирование с предсказанием - си.ДИКМ.
Кодовая книга - перечень всех эталонных векторов, используемых при векторном квантовании. (§ 3.6)
Коды Рида-Соломона - корректирующие коды, применяемые, в частности, в системах цифрового ТВ. (§ 5.2, 6.1)
Компенсация движения - формирование изображения из блоков (фрагментов, макроблоков) другого (опорного) изображения, путем их смещений. Указанные смещения определяются векторами движения, найденными в результате оценки движения. Компенсация движения используется при формировании предсказанных изображений в стандартах MPEG-1, MPEG-2, MPEG-4. (§ 3.4, 4.2.1, 4.3)
Композитное кодирование - преобразование ПЦТС в цифровую форму.
(§ 2.3)
Компонентное кодирование - раздельное преобразование яркостного и цветоразностных сигналов в цифровую форму. (§ 2.2, 2.3)
Компрессия - 1) сжатие информации путем эффективного кодирования, отбрасывания несущественных частей информации и т. д.; 2) сжатие динамического диапазона сигнала с помощью нелинейного преобразования.
Корректирующие коды - коды, позволяющие обнаруживать и/или исправлять ошибки, возникающие ири передаче информации. (§ 5.2)
ЛВС - локальная вычислительная сеть.
Линейное предсказание (англ. Linear Prediction) - формирование предсказанного значения сигнала (см. ДИКМ) в виде линейной комбинации нескольких предыдущих значений. (§ 3.5)
Макроблок - прямоугольная область изображения размером 16x16 пикселов, являющаяся основной структурной единицей кодирования изображений в стандартах MPEG-1, MPEG-2 и др. Для макроблоков выполняются оценка и компенсация движения. (§ 4.2.1)
Маскирование звука - свойство слуха, используемое в MPEG-1, MPEG-2 Audio и Долби АС-3. При наличии громкого звука с какой-либо часто-той, более тихие звуки на близких частотах оказываются неслышимыми, то есть маскируются. (§ 4.2.2, 4.4)
Маскирование ошибки - замена группы символов, в которой обнаружена ошибка, на ранее принятую без ошибки группу символов. (§ 5.2)
Масштабируемость (англ. Scalability) - свойство методов кодирования и синтаксиса потока данных MPEG-2, позволяющее получать изображение с неполным качеством, например, с уменьшенной разрешающей способностью, из части потока видеоданных. В MPEG-4 свойство масштабируемости распространено и на звуковое сопровождение. (§ 4.2.1, 4.3)
Матрицирование - формирование нескольких выходных сигналов в виде сумм нескольких входных сигналов, взятых с заданными коэффициентами.
МДКП - модифицированное дискретное косинусное преобразование. Разновидность ДКП. Используется в Долби АС-3 и MPEG-1, MPEG-2 Audio, Layer
III. (§ 4.2.2, 4.4)
Медианная фильтрация - отсчет выходного сигнала определяется как медиана распределения значений нескольких отсчетов входного сигнала. Медианная фильтрация может быть как одномерная, так и двумерная, то есть пространственная. (§ 3.2)
Межкадровое кодирование (англ. interframe) - сжатие видеоинформации, основанное на использование межкадровой корреляции. (§ 4.2)
МККР - Международный консультативный комитет по радиосвязи. Ныне называется ITU-R.
МККТТ - Международный консультативный комитет по телеграфии и телефонии. Ныне называется ITU-T.
Модем - устройство, в котором выполняются модуляции и демодуляция.
Модуляция - изменение одного или нескольких параметров электрического сигнала, называемого несущим колебанием или просто несущей, в соответствии со значениями модулирующего сигнала.
Нелинейный монтаж - метод монтажа видеоматериалов, при котором монтируемые материалы находятся в ЗУ компьютера, и оператор имеет произвольный доступ к любому кадру. (§ 6.4)
Нерекурсивный цифровой фильтр - цифровой фильтр, в котором значение формируемого отсчета выходного сигнала зависит только от значений отсчетов входного сигнала. (§ 3.2)
Объект - Основное понятие объектно-ориентированного подхода. В MPEG-4 и MPEG-7 используются понятия видеообъекта, которым может быть выделенный по какому-либо признаку фрагмент изображения или целое изображение, аудиообъекта, которым могут быть звуки, создаваемые одним источником, аудиовизуального объекта, в котором объединяются видеообъект и аудиообъект. (§ 4.3, 6.5)
Одночастотная сеть (Single Frequency Network - SFN) - один из вариантов вещания в DVB-T. Синхронная работа на одной частоте нескольких ТВ-передатчиков, области приема сигналов которых перекрываются. (§6.1)
Опорное изображение (Reference Picture) - кадр или поле, по которому выполняется предсказание с компенсацией движения макроблоков кодируемого изображения. (§ 4.2.1)
Оценка движения - определение смещений отдельных блоков, элементов, фрагментов изображения относительно их положений в другом (опорном) изображении. Найденное смещение выражается вектором движения. По результатам оценки движения может выполняться компенсация движения. (§ 3.4)
Ошибка предсказания - разность предсказанного и действительного значений сигнала. При кодировании изображений ошибкой предсказания фрагмента (макроблока) изображения может быть матрица чисел, каждый элемент которой равен разности значений сигналов соответствующих элементов предсказанного и действительного фрагментов. (§ 3.5, 4.2.1)
Пакет - структурная единица потока данных, представляющая собой группу информационных символов (битов, байтов и т. д..), передаваемых совместно по каналам связи. Как правило, пакет имеет заголовок, содержащий сведения о нем.
Пакетные ошибки - ошибки, поражающие несколько соседних символов (битов) передаваемой информации. (§5.1)
Пиксел (или пиксель) (от англ. pixel) - элемент дискретного изображения, яркость и цветность в пределах которого постоянны.
ПК - персональный компьютер.
Поле - полукадр при чересстрочной развертке, содержащий нечетные строки кадра (первое поле) или четные строки кадра (второе поле). Поле передается и воспроизводится за один период вертикальной развертки телевизора.
Полевое кодирование - один из режимов кодирования видеоинформации с чересстрочной разверткой в стандартах MPEG-1, MPEG-2. В этом режиме макроблок состоит из элементов изображения только первого или только второго поля. (§ 4.2.1)
Поток данных (англ. bitstream) - последовательность двоичных символов, передаваемых по каналу связи или записываемых на носитель информации. Состоит из структурных единиц (пакетов, кадров и т. д.), снабженных заголовками.
Преобразование Хаара - один из видов вэйвлет-преобразования. (§ 3.3)
Программный поток (Program Stream) - один из видов мультиплексированного (объединенного) потока данных MPEG-2, аналогичный системному уровню MPEG-1. В отличие от Транспортного потока, переносит данные только одной ТВ-программы. (§ 4.2.3)
Прогрессивная развертка - вариант развертки, при котором все строки кадра передаются последовательно одна за другой.
Пропущенный макроблок (англ. skipped) - макроблок, который не передается, так как совпадает с соответствующим макроблоком опорного изображения. (§ 4.2.1)
Прореживание - уменьшение количества отсчетов цифрового сигнала. В результате прореживания оставляют, например, каждый 2-й, или каждый 3-й, каждый 4-й и т. д. отсчет, а остальные отбрасывают.
Пространственная фильтрация - преобразование изображения, при котором яркость и цвет каждого элемента формируемого изображения определяются как заданная функция от яркостей и цветов элементов исходного изображения. (§ 3.2)
Пространственная частота (для непрерывных изображений) - величина, обратная пространственному периоду. Показывает, сколько периодов изменения какого-либо параметра, например, яркости, укладывается на единицу длины. Размерность м"'. (§ 2.1)
Пространственный (двумерный) фильтр - устройство, с помощью которого выполняется пространственная фильтрация. (§ 3.2)
Профиль - в MPEG2 понятие профиль характеризует сложность используемых методов кодирования и наличие масштабируемости. (§ 4.2.1, табл. 4.4)
Психоакустическая модель (ПАМ) - алгоритм, учитывающий свойства слуха, по которому в MPEG-1, MPEG-2 Audio для каждого частотного поддиапазона оценивается маскирование звуками из других поддиапазонов и рассчитывается распределение битов для квантования. (§ 4.2.2)
ПЦТС - Полный Цветной Телевизионный Сигнал. Так называется сигнал аналогового цветного телевидения, содержащий сигнал яркости, цве-торазностные сигналы на цветовой поднесущей, синхроимпульсы, гасящие импульсы и др. необходимые компоненты.
Распределение битов (англ. bit allocation) - операция, применяемая во многих методах сжатия изображений и звукового сопровождения. Заданное количество двоичных разрядов (битов) при квантовании распределяется по нескольким составляющим общего потока данных, например, по частотным поддиапазонам. (§ 4.2.2, 4.4)
Расширение (англ. extension) - в MPEG-2 - части потоков видео и аудиоданных, содержащие данные, которые дополняют обязательные (базовые) части потоков. (§ 4.2.1, 4.2.2,4.2.3)
Рекомендация 601 - полное название Рекомендация ITU-R ВТ 601. Старое название Рекомендация 601 МККР или CCIR-601. Определяет параметры цифрового представления ТВ-сигналов телевидения обычной четкости. (§ 2.2)
Рекомендация ITU-R BT-709-3 - документ, определяющий параметры циифрового представления сигналов ТВЧ, общие для Европы, США и Японии. (§ 6.5)
Рекурсивный цифровой фильтр - цифровой фильтр, в котором значение формируемого отсчета выходного сигнала зависит как от значений отсчетов входного сигнала, так и от значений ранее сформированных отсчетов выходного сигнала. (§ 3.2)
Решетчатые коды (trellis code) - корректирующие коды, используемые при канальном кодировании (внутреннее кодирование) в системах цифрового ТВ. (§ 5.2, 6.1)
Синхроимпульсы - импульсы, входящие в состав полного телевизионного сигнала с целью синхронизации разверток в ТВ-приемнике с соответствующими развертками в передающей телевизионной камере. Кадровые синхроимпульсы предназначены для синхронизации вертикальной (кадровой) развертки, а строчные синхроимпульсы - для синхронизации горизонтальной (строчной) развертки в телевизионном приемнике. Скорость передачи двоичных символов (англ. bitrate) - число битов информации, передаваемых за секунду. Единицы измерения бит/с, кбит/с, Мбит/с и т. д.
Скремблирование - перестановка битов, байтов или более крупных блоков передаваемой информации для защиты от пакетных ошибок. Используется также для защиты информации от несанкционированного доступа. (§ 5.1, 6.1)
Слайс (англ. slice) - группа следующих один за другим в процессе кодирования макроблоков. Для всех макроблоков слайса задается одинаковый параметр сжатия, который записывается в заголовок слайса. (§ 4.2.1)
Соответствие блоков (англ. block matching) - один из методов оценки движения, в соответствии с которым для каждого блока (макроблока) кодируемого изображения находят в опорном изображении наиболее соответствующую по выбранному критерию этому блоку область таких же размеров. (§ 3.4, 4.2.1)
Сотовое ТВ - системы ТВ-вещания СВЧ-диапазона, например MMDS, в которых используется сеть маломощных передатчиков. (§ 6.1)
Строка - часть кадра, обычно представляющая собой горизонтальную или слегка наклонную узкую полосу передаваемого изображения. В процессе передачи кадра строки передаются одна за другой.
Сцена - одно из понятий MPEG-4. Совокупность аудиовизуальных объектов, наблюдаемых и слышимых зрителем. (§ 4.3)
ТВЧ - телевидение высокой четкости. (§ 6.5)
Текстура — мелкая структура изображения. Заполнение контуров объектов, предметов и т. д.
Транспортный поток (англ. Transport Stream - TS) - мультиплексированный (объединенный) поток данных MPEG-2, состоящий из транспортных пакетов и объединяющий данные нескольких телевизионных программ и служебную информацию. (§ 4.2.3)
Уровень (англ. - Layer) - в MPEG-'l, MPEG2 Audio определены три уровня кодирования звукового сопровождения: Layer I, Layer II, Layer HI. (§ 4.2.2)
Уровень (англ. level) - в MPEG-2 определены уровни по разрешающей способности изображения. (§ 4.2.1, табл.4.4)
Фазовая манипуляция (ФМн) - один из видов модуляции, применяемый при передаче цифровых сигналов. Заключается в дискретном изменении фазы несущей. (§ 5.3) ЦАП - цифроаналоговый преобразователь.
Цветовая поднесущая - частота, на которую с помощью модуляции переносятся цветоразностные сигналы при формировании ПЦТС в системах аналогового цветного телевидения.
Цветоразностные сигналы - сигналы в цветном телевидении, несущие информацию о цвете и не влияющие на яркость изображения. Определяются формулами:
Цифровой фильтр - устройство, преобразующее последовательность отсчетов входного цифрового сигнала в последовательность отсчетов выходного цифрового сигнала. (§ 3.2)
ЦПОС - цифровой процессор обработки сигналов (англ. - DSP).
Частота дискретизации - величина, обратная периоду следования отсчетов дискретного сигнала. В соответствии с теоремой Котельникова частота дискретизации должна по меньшей мере в два раза превышать верхнюю граничную частоту дискретизируемого сигнала. (§ 2.1)
Чересстрочная развертка - вариант развертки, при котором сначала передаются все нечетные строки кадра, составляющие первое поле, а потом - все четные строки кадра, составляющие второе поле. Чересстрочная развертка применяется во всех широко используемых системах ТВ-вещания, так как позволяет увеличить в два раза частоту вертикальной развертки в ТВ-приемнике при заданной частоте передачи кадров.
Шум квантования - ошибка, возникающая в результате квантования сигнала или вообще всякой информации. Элемент изображения - см. Пиксел.
Элементарный поток (англ. Elementary Stream - ES) - поток данных на выходе кодера изображения или кодера звука. Элементарные потоки объединяются (мультиплексируются) в мультиплексированные потоки, например, в транспортный поток MPEG-2. (§ 4.2.3, 4.3)
Энтропийное кодирование - кодирование информации, позволяющее уменьшить ее объем без необратимых потерь. Основано на использовании статистических свойств источника сообщения, например, распределения вероятностей появления различных символов, слов и т. п. (См. также Кодирование с переменной длиной кодовых слов.) Яркостный сигнал (сигнал яркости) - сигнал, несущий информацию о яркости всех элементов изображения и соответствующий видеосигналу черно-белого телевидения. В цветном телевидении яркостный сигнал формируется из прошедших гамма-коррекцию сигналов основных цветов E'r (красный), Е'с, (зеленый), Е'ц (синий) в соответствии с формулой
AC-3 (Dolby AC-3) - Стандарт сжатия многоканального звука. Используется, в частности, в системе цифрового ТВ ATSC. (§ 4.4)
Adaptive bit allocation - см. Адаптивное распределение битов.
ADPCM - Adaptive Differential Pulce Code Modulation. См. АДИКМ.
ATM (Asynchronous Transfer Mode - Асинхронный режим передачи) -метод передачи в широкополосных цифровых сетях. Обеспечивает высокую пропускную способность. (§ 6.2)
ATSC (Advanced Television Systems Committee - Комитет по усовершенствованным системам телевидения) - система цифрового ТВ-вещания, принятая в США. (§ 6.1)
BER (Bit Error Rate) - частота ошибок на 1 бит передаваемой информации. (§5.1)
Bit allocation - см. Распределение битов.
B-frame (В-кадр) - от Bidirectional - двунаправленный. Кадр, макроблоки которого могут кодироваться с предсказанием по двум опорным изображениям, одно из которых следует до кодируемого В-кадра, а другое —после. (§ 4.2.1)
Block matching - см. Соответствие блоков.
CCIR - Comite Consultativ International de Radio. - см. MKKP, ITU-R.
CCIR-601 - см. Рекомендация 601.
CCITT - Comite Consultatif International de Telegraphique et Telephoniqu. См. МККТТ, ITU-T.
CELP (Code Excited Linear Predictive - кодирование возбуждений с линейным предсказанием) - метод сжатия речи, обеспечивающий скорости передачи 6...24 кбит/с при частотах дискретизации 8 кГц или 16 кГц.
CIF (Common Intermediate Format) - формат кадра, содержащий 288 строк по 352 элемента в строке для сигнала яркости и 176 строк по 144 элемента в строке для каждого из цветоразностных сигналов. (§ 2.3)
COFDM (Coded Orthogonal Frequency Division Multiplex) - OFDM, совмещенная с канальным кодированием. (§ 5.3, 6.1)
Content-based coding - кодирование, основанное на содержании. Один из вариантов кодирования изображений в MPEG-4, в котором могут кодироваться объекты сложной формы. (§ 4.3)
D-box - см. Set-Top-Box.
DCT- см. ДКП.
DMIF (Delivery Multimedia Integration Framework - интегрированная система доставки мультимедиа) - протокол, обеспечивающий управление потоками данных в MPEG-4. (§ 4.3) DPCM (Differencial Pulce Code Modulation) - см. ДИКМ.
DVB (Digital Video Broadcasting - Цифровое видеовещание) - система цифрового телевидения, развиваемая в Европе. Включает кабельное (DVB-C), спутниковое (DVB-S), наземное (DVB-T), а в перспективе и другие виды ТВ-вещания. (§ 6.1)
DVD (Digital Versatile Disk - Цифровой многосторонний диск. Встречается также расшифровка Digital Video Disk) - новый вид оптических дисков, предназначенных, в частности, для записи видеопрограмм обычной четкости (704x576), сжатых по MPEG-2.
DVT (Digital Video Team) - проект фирм Microsoft, Intel и Compaq (США), объявленный в 1997 г. и направленный на использование компьютера в качестве ТВ-приемников. (§ 6.4)
Elementary Stream (ES) - см. Элементарный поток.
Extension - см. Расширение.
Field - см. Поле.
Frame - см. Кадр.
G.711, G.721, G.722, G.726, G.728, G.729 - Рекомендации ITU-T, описывающие методы сжатия речи для систем связи, в том числе и видеосвязи. (§ 4.4)
GOP (Group of Pictures) - группа изображений. В MPEG-1, MPEG-2 -группа следующих друг за другом изображений (кадров или полей), начинающаяся с 1-кадра. (§ 4.2.1)
Н.261, Н.262, Н.263 - рекомендации ITU-T, описывающие методы кодирования видеоинформации для систем видеосвязи. (§ 4.4)
Н.320, Н.321, Н.322, Н.323, Н.324 - рекомендации ITU-T, описывающие построение систем видеосвязи. (§ 6.2)
HDTV (High-Definition Television) - телевидение высокого разрешения. См. ТВЧ.
I-frame (I-кадр) (от Intraframe - внутрикадровый) - кадр, с которого начинается GOP в стандартах MPEG-1, MPEG-2. Все макроблоки 1-кадра кодируются внутрикадровым методом. (§ 4.2.1)
ISDN (Integrated Services Digital Network - цифровые сети интегрированного сервиса) - вид цифровых сетей связи с коммутацией каналов. (§ 6.2)
ISO (International Organization for Standartization) - Международная организация по стандартизации. Основана в 1947 г., включает в качестве членов более 100 национальных организаций по стандартизации.
ITU (International Telecommunication Union) - Международный союз электросвязи (МСЭ). Одна из функций этой организации - подготовка Рекомендаций, которые фактически являются международными стандартами.
ITU-R - организация - часть ITU, отвечающая за подготовку Рекоменда-.ций в областях радиосвязи и телевидения.
ITU-T - организация - часть ITU, отвечающая за подготовку Рекомендаций в областях телефонии и цифровой передачи данных.
JPEG (Joint Photographic Experts Group) - объединенная группа экспертов по фотографии. Рабочая группа ISO, созданная в 1986 г. и занимающаяся разработкой носящих такое же название стандартов кодирования и сжатия неподвижных изображений. (§4.1)
JPEG-2000 - Новый проект группы JPEG. Направлен на увеличение степени сжатия и обеспечение сжатия анимированных изображений.
Layer - См. Уровень.
Level - См. Уровень.
Linear Prediction - См. Линейное предсказание.
Loseless JPEG (JPEG без потерь) - метод сжатия изображений, разработанный группой JPEG и основанный на кодировании с предсказанием. Позволяет получить существенно меньшее сжатие, чем "обычный" JPEG.
LPC (Linear Predictive Coding) - кодирование методом линейного предсказания (см. ДИКМ, Линейное предсказание).
MDCT - см. МДКП.
MMDS (Multichannel Microvave Distribution System - Многоканальная система распределения на СВЧ) — см. Сотовое ТВ.
Motion JPEG - метод сжатия движущихся изображений, в котором каждый кадр сжимается методом JPEG независимо от других кадров. Используется, в частности, в системах видеомонтажа. (§4.1, 6.4)
MPEG (Moving Picture Expert Group) - группа экспертов по движущимся изображениям. Рабочая группа ISO, ванимающаяся разработкой стандартов кодирования и сжатия видео- и аудиоданных. Название группы присутствует в названиях подготовленных ей стандартов.
MPEG-1 - стандарт сжатия движущихся изображений и звукового сопровождения, утвержденный в 1993 году. В основном используется при записи видеопрограмм формата SIF на лазерные диски, обеспечивая сжатие до 1,5 Мбит/с. (§ 4.2)
MPEG-2 - стандарт сжатия движущихся изображений и звукового сопровождения, утвержденный в 1994 г. Является основой современных систем цифрового телевидения. (§ 4.2)
MPEG-3 - проект группы MPEG по сжатию изображений ТВЧ. Вошел в MPEG-2 и ныне отдельно не существует. (§ 4.2.1)
MPEG-4 - стандарт сжатия движущихся изображений и звука. Принят в 1998-1999 годах. В первую очередь направлен на передачу аудиовизуальной информации по узкополосным каналам связи и на создание интерактивных ТВ-систем. (§ 4.3)
MPEG-7 - проект группы MPEG, основная цель которого - стандартизация средств описания содержания видео- и аудиоинформации. Предположительный срок утверждения стандартов - 2001 год. (§ 6.5)
MUSICAM (Masking Pattern Universal Subband Integrated Coding And Multiplexing) - метод кодирования звуковых сигналов, в значительной степени ставший основой стандарта MPEG-1 в части сжатия звука.
NBC (Nonbackward compatible) - один из вариантов кодирования многоканального (более двух каналов) звука в MPEG-2, не совместимый "назад" с MPEG-1. (§ 4.2.2)
NTSC (National Television System Committee) - система цветного телевидения, используемая в США, Канаде, Японии и ряде других стран Азии и Америки. Формат кадра 4:3; число строк 525, из них видимых на экране -480, частота кадров 30 Гц, частота полей - 60 Гц, развертка чересстрочная. Два цветоразностных сигнала передаются одновременно с помощью квадратурной модуляции цветовой поднесущей, частота которой 3.58 МГц.
OFDM (Orthogonal Frequency Division Multiplex) - ортогональное частотное мультиплексирование. Один из видов модуляции, применяемых в системах цифрового ТВ. (§ 5.3, 6.1)
PAL (Phase Alternating Line) - система цветного телевидения используемая во многих странах Европы, Китае и других странах. Формат кадра 4:3, число строк 625, из них видимых на экране - 576, частота кадров 25 Гц, частота полей 50 Гц, развертка чересстрочная. Два цветоразностных сигнала передаются одновременно с применением квадратурной модуляции цветовой поднесущей, частота которой 4,43 МГц.
PCM (Pulce Code Modulation) - см. ИКМ.
P-frame (Р-кадр) (от Predictive - предсказанный) - кадр, макроблоки которого могут кодироваться с предсказанием по опорному изображению, в качестве которого может использоваться предшествующий I-кадр или Р-кадр. (§4.2.1)
Pixel (Picture element) - элемент изображения. См. Пиксел.
Profile - см. Профиль.
QAM - см. Квадратурная амплитудная манипуляция.
QCIF (Quarter Common Intermediate Format) - формат кадра, составляющий 1/4 от формата CIF, т. е. 176x144 элементов сигнала яркости. (§ 2.3)
QMF (Quadrature Mirror Filter) - см. КЗФ.
QPSK (Quadrature Phase Shift Key - квадратурная фазовая манипуляция) - метод модуляции несущей, используемый в системах цифрового ТВ. Основан на дискретном изменении фаз двух квадратурных составляющих (см. также ФМн).
QSIF (Quarter SIF) - формат кадра, составляющий 1/4 от формата SIF. (§ 2.3)
RLC (Runlength Coding) - метод кодирования, при котором идущие подряд одинаковые символы сообщения представляются парой чисел, одно из которых показывает количество идущих подряд одинаковых символов, а другое - сам символ. (§ 4.1)
Scalability - см. Масштабируемость.
Skipped macroblock - см. Пропущенный макроблок.
SECAM (Sequentiel Coleur A Memoir) - система цветного телевидения, используемая во Франции, странах бывшего СССР, странах восточной Европы и некоторых странах Азии и Африки. Формат кадра 4:3, число строк 625, из них видимых на экране - 576, частота кадров 25 Гц, частота полей 50 Гц, развертка чересстрочная. Два цветоразностных сигнала передаются поочередно, через строку. Применяется частотная модуляция цветовой поднесущей, начальная частота которой 4,406 МГц для красного цветоразностного сигнала и 4,250 МГц - для синего.
Set-Top-Box - приставка для приема программ цифрового ТВ. (§ 6.1)
Single Frequency Network (SFN) - см. Одночастотная сеть.
SIF - 1) Standard Interchange Format. Формат кадра, содержащий 288 строк по 352 элемента изображения в строке или 240 строк по 352 элемента изображения в строке; 2) Source Input Format. Формат кадра, содержащий 240 строк по 320 элементов изображения в строке. (§ 2.3)
SQCIF (Sub-Quarter Common Interchange Format) - формат кадра, содержащий 128x96 элементов сигнала яркости. (§ 2.3)
S-Video - стандарт интерфейса телевизионной и видаоаппаратуры, в соответствии с которым по отдельным проводам передаются сигнал яркости с синхроимпульсами (Y) и сигнал цветности, т. е. цветовая поднесу-щая, промодулированная цветоразностными сигналами (С). Обозначается также Y/C.
Т.120 - Рекомендация ITU-T, определяющая взаимодействие программно-аппаратных средств при обмене данными в системах видеосвязи. (§ 6.2)
Transport Stream (TS) - см. Транспортный поток.
Video-on-Demand - см. Видео по заказу.
VLBV (Very Low Bitrate Video) - уровень очень низкой скорости передачи данных в MPEG-4. (§ 4.3)
VLC (Variable Length Coding) - см. Кодирование с переменной длиной кодовых слов.
VSB (Vestigial side band) - амплитудная модуляция с частично подавленной боковой полосой. (§ 6.1) Wavelet-Transform - см. Вэйвлет-преобразование.
4:2:2, 4:2:0 и т.д. - варианты форматов дискретизации яркостного и цветоразностных сигналов. (§ 2.2).
5.1 (или 5,1) - условная запись в методах кодриования многоканального звукового сопровождения, показывающая, чт.е. пять основных каналов звука, и один узкополосный низкочастотный. (§ 4.2.2, 4.4)