МАКРОБЛОКИ

 

Макроблоком называется квадратный фрагмент изображения размером 16x16 элементов (пикселов). Макроблок содержит ин­формацию как о яркости (У), так и о цветности B, CR). В случае использования формата дискретизации 4:2:0 каждый макроблок содержит четыре блока 8x8 элементов сигнала яркости У и по од­ному блоку 8x8 элементов цветоразностных сигналов CR и СB. При использовании формата 4:2:2 каждый макроблок содержит при том же количестве блоков Y по два блока CR и СB, а при использовании формата 4:4:4 - по четыре блока CR и СB.

Группа следующих друг за другом макроблоков называется слайсом (slice - доля, часть, квант). Число макроблоков в слайсе может быть произвольным. Слайсы в изображении не должны пе­рекрываться, но их положение может изменяться от одного изо­бражения к другому.

 

ПРОГРЕССИВНАЯ И ЧЕРЕССТРОЧНАЯ РАЗВЕРТКИ

 

При кодировании телевизионного изображения, передавае­мого с прогрессивной разверткой, каждый кадр состоит из одного поля и разбивается на макроблоки.

В случае чересстрочной развертки каждый кадр состоит из двух полей. Первое поле содержит нечетные строки кадра, а второе поле - четные строки. При этом возможны два варианта кодирова­ния кадра, выбор одного из которых для данного кадра осуществ­ляется на основе оценки движения в нем.

В случае кадрового кодирования (frame) кодируемым изобра­жением является полный кадр, который целиком хранится в ЗУ ко­дера, вследствие чего для кодирования одновременно доступны как четные, так и нечетные строки. Блоки элементов сигнала яркости и блоки элементов цветоразностных сигналов для форматов 4:2:2 и 4:4:4 выделяются из макроблока, как это показано на рис. 4.3,а, где заштрихованными показаны нечетные строки, а не заштрихован­ными - четные. В случае формата 4:2:0 в блоки цветоразностных сигналов берутся элементы из каждой второй строк». Кадровое ко­дирование выбирается в случаях, когда изменения во втором поле кадра относительно первого поля того же кадра незначительные.

 

В случае полевого кодирования (field) кодируемым изобра­жением является каждое поле. Первое поле кадра может использо­ваться для предсказания макроблоков второго поля того же кадра. При этом в каждый блок элементов сигнала яркости или элементов цветоразностных сигналов для форматов 4:2:2 и 4:4:4 входят эле­менты из одного поля, как это показано на рис. 4.3,6. Блоки эле­ментов цветоразностных сигналов для формата 4:2:0 образуются также, как при кадровом кодировании.

Как уже указывалось, при описании работы кодера и декоде­ра говорится о кадровом кодировании, но следует помнить, что существует и полевое кодирование.

 

КОДЕР ВИДЕОИНФОРМАЦИИ

 

В стандартах MPEG не описано построение кодера, а лишь определен синтаксис потока данных на его выходе. Структурная схема кодера видеоинформации (рис. 4.4) отображает основные операции, выполняемые при кодировании и обеспечивающие по­лучение выходного потока данных с требуемыми параметрами.

На схеме обозначены ДКП - блок прямого дискретного ко­синусного преобразования; ДКП-1 - блок обратного дискретного косинусного преобразования; Кв - квантователь; Кв-1 - деквантователь, т. е. блок, выполняющий обратную квантованию операцию; ЗУ — запоминающее устройство; Пред — блок, выполняющий фор­мирование предсказанного кадра; ОД - блок оценки движения и формирования векторов движения; КПДС - блок, в котором вы­полняется кодирование с переменной длиной кодового слова; Мп -мультиплексор; БЗУ - буферное запоминающее устройство; УКС -блок управления коэффициентом сжатия изображения.

Кроме того, на схеме показаны сумматор, вычитающее устройство и переклю­чатель. Работа всех блоков синхронизируется общей тактовой час­тотой 27 МГц.

В кодере реализуются два режима кодирования: внутрикад-ровое кодирование (переключатель в положении 1) и межкадровое кодирование с предсказанием и компенсацией движения (переклю­чатель в положении 2).

Все макроблоки I-кадров кодируются в режиме внутрикадро-вого кодирования. Метод аналогичен JPEG: разложение на блоки 8x8 пикселов, поблочное ДКП, квантование полученных коэффи­циентов в соответствии с формулой (4.1), считывание в зигзагооб­разном порядке, кодирование с переменной длиной кодовых слов. При квантовании могут использоваться, например, табл. 4.1 и 4.2. В случае использования нестандартных таблиц коэффициентов квантования они включаются в общий выходной поток данных.

Кодирование с переменной длиной кодовых слов осуществ­ляется с помощью таблиц кодов, имеющихся в стандарте. Как и в JPEG, коэффициенты ДКП, соответствующие постоянным состав­ляющим, кодируются с использованием предсказания по таким же коэффициентам предыдущих блоков, и для них предназначены от­дельные таблицы кодов с переменной длиной кодовых слов. Отме­тим, что в тексте стандартов нет термина "кодирование по Хаффмену". Видимо это связано с тем, что таблицы кодов заданы в стандарте, а не вычисляются под конкретные данные, как это требуется при кодировании по Хаффмену.

Макроблоки Р-кадров могут кодироваться как внутрикадровым методом, так и межкадровым в зависимости от наличия и ин­тенсивности изменений в этом макроблоке по сравнению с соот­ветствующей областью изображения, по которому выполняется предсказание данного Р-кадра, т. е. в зависимости от результатов оценки движения.

Изображение, по которому выполняется предсказание, фор­мируется из кодированных данных предыдущего I- или Р-кадра.

В деквантователе данные умножаются на коэффициенты квантова­ния, затем выполняется обратное ДКП так же, как это делается в декодере в приемной части системы, после чего декодированное изображение записывается в ЗУ. Как было показано в § 3.5, ис­пользование обратной связи при получении данных для предсказа­ния позволяет избежать накопления ошибок квантования. Для реа­лизации всех возможных вариантов предсказания ЗУ должно со­держать несколько (как минимум 4) предыдущих кадров.

Оценка движения осуществляется путем сравнения текущего изображения, поступающего на вход кодера, с изображением, на­ходящимся в ЗУ и используемым для предсказания (опорным изо­бражением). Эта процедура поясняется рис. 4.5,а. Для каждого макроблока кодируемого изображения отыскивается, как это было описано в § 3.4, соответствующая ему область А1 размером 16x16 элементов в опорном изображении. Положение соответствующей области определяется с точностью до половины пиксела по обеим координатам.

 

Если в области поиска не найдена соответствующая область, отличие которой от данного макроблока не превышает установлен­ной величины, то этот макроблок кодируется во внутрикадровом режиме аналогично макроблокам 1-кадров.

Если соответствующая область А1 найдена, то макроблок ко­дируется в межкадровом режиме, и для него определяется вектор движения V1. Векторы движения кодируются с переменной длиной кодовых слов и через мультиплексор включаются в общий поток данных.

Если для макроблока выбран межкадровый режим кодирова­ния, то формируется предсказанный макроблок (Предск.МБ), в ка­честве которого берется найденная соответствующая область А1 из опорного изображения. Предсказанный макроблок поэлементно вычитается из настоящего макроблока. Полученный разностный макроблок (ошибка предсказания) проходит поблочное ДКП, кван­тование и кодирование с переменной длиной кодовых слов. Мат­рица коэффициентов квантования для ошибок предсказания со­держит 64 числа 16 и используется для квантования как яркостных, так и цветоразностных составляющих.

Для макроблоков В-кадров поиск соответствующей области осуществляется как в предшествующем I- или Р-кадре так и в по­следующем Р-кадре (рис. 4.5,6). В зависимости от результатов по­иска соответствующей области возможны следующие варианты:

- макроблок кодируется во внутрикадровом режиме;

-  формируется предсказанный макроблок в виде соответст­вующей области А1 предыдущего I- или Р-кадра;

-  формируется предсказанный макроблок в виде соответст­вующей области А2 последующего Р-кадра;

-  формируется предсказанный макроблок в виде поэлемент­ной полусуммы соответствующей области А1 предыдущего I- или Р-кадра, и соответствующей области А2 последующего Р-кадра, т. е. в виде результата интерполяции по этим областям.

В последних трех вариантах макроблок кодируется в меж­кадровом режиме, как это было описано для Р-кадров. В случае предсказания путем интерполяции для макроблока необходимо пе­редавать два вектора движения VI и V2, показывающие положения соответствующих областей в предыдущем и в последующем кадрах.

При кодировании телевизионных изображений с чересстроч­ной разверткой возможны два основных варианта предсказания: полевой и кадровый. При полевом предсказании макроблоки каж­дого поля предсказывается независимо от другого поля этого кад­ра, и для формирования предсказанного макроблока используются данные одного или двух ранее кодированных полей. При кадровом предсказании для формирования предсказанного макроблока ис­пользуются данные, содержащиеся в обоих полях одного или двух ранее кодированных кадров. Помимо этого стандарт предусматри­вает дополнительные режимы предсказания при чересстрочной развертке.

Кроме того, стандарт позволяет пропускать некоторые мак­роблоки при кодировании (skipped macroblock). Для таких макро­блоков никакие данные не передаются. Этот вариант используется, если кодируемый макроблок не имеет отличий от соответствующе­го макроблока в опорном изображении.

Описанный способ кодирования телевизионного сигнала и называется кодированием с предсказанием и компенсацией движе­ния. Выигрыш в сжатии изображения достигается благодаря тому, что разности действительных и предсказанных макроблоков Р- и В-кадров содержат значительно меньше информации, чем сами эти макроблоки. При этом для В-кадров объем передаваемой информа­ции будет наименьшим, так как при двунаправленном предсказа­нии ошибка предсказания минимальна.

Кодированные видеоданные и векторы движения через муль­типлексор поступают в БЗУ, работающее по принципу "первым вошел - первым вышел".

Одна из функций БЗУ - согласование неравномерного во времени потока данных после кодирования со строго постоянной скоростью передачи двоичных символов при выполнении кодиро­вания в реальном времени. Неравномерность потока данных, по­ступающих в БЗУ, обусловлена в первую очередь наличием разных типов кадров. Считывание данных из БЗУ осуществляется с посто­янной скоростью. Степень заполненности БЗУ колеблется во вре­мени, возрастая при увеличении потока поступающих на него дан­ных и снижаясь при уменьшении этого потока.

Помимо различия типов кадров на степень заполнения буфе­ра может влиять характер передаваемого изображения. Если в изо­бражении много мелких деталей, возрастает количество и уровень высокочастотных составляющих пространственно-частотного спектра, т. е. количество отличных от нуля коэффициентов ДКП. Это приводит к увеличению потока данных. При передаче же "гладких" изображений количество отличных от нуля коэффициен­тов ДКП уменьшается, так как пространственно-частотный спектр изображения имеет в основном низкочастотные составляющие.

Для оптимизации работы системы желательно поддерживать уровень заполнения БЗУ приблизительно постоянным. Если БЗУ переполняется, то, очевидно, будет происходить потеря части дан­ных, т. е. ухудшение качества изображения на выходе системы. Ес­ли же БЗУ полностью освобождается, то по каналу связи прихо­дится передавать "пустые" блоки, что приводит к снижению эф­фективности его использования. Чтобы избежать обоих нежелательных случаев, в кодере изображения введена обратная связь с БЗУ на блок УКС, управляющий степенью сжатия изобра­жения.

Сущность действия этой обратной связи заключается в сле­дующем. Если передается мелкоструктурное изображение, и за­полнение БЗУ увеличивается, то под воздействием обратной связи увеличивается параметр квантования коэффициентов ДКП [см. формулу (4.1)]. При этом число бит на каждый коэффициент уменьшается, и уровень потока данных поддерживается примерно постоянным. Наоборот, при передаче "гладких" изображений кван­тование становится более точным. Такой метод соответствует свойствам человеческого зрения: на мелкоструктурных изображе­ниях менее заметны неточности в передаче уровней яркости, так как в первую очередь воспринимаются контуры деталей. Измене­ние параметра квантования может осуществляться или после коди­рования каждого кадра с учетом его типа, или в пределах одного кадра после кодирования каждого слайса. Данные о параметре квантования включаются в общий .поток данных в заголовки слайсов.

 

ПОТОК ВИДЕОДАННЫХ MPEG-2

 

Упрощенная структура потока данных на выходе видеокоде­ра MPEG-2 показана на рис. 4.6.

 

Самой крупной структурной единицей потока видеоданнь является видеопоследовательность (video sequence), в некоторь русскоязычных источниках называемая рядом. Видеопоследовтельность может содержать произвольное число групп изображен ний (GOP), которые, в свою очередь, состоят из кадров (при кадро­вом кодировании) или полей (при полевом кодировании) разных типов (I, P, В). Каждое изображение состоит из слайсов, каждый из которых содержит некоторое число макроблоков.

Каждая структурная единица потока видеоданных начинает­ся с соответствующего стартового кода, позволяющего при деко­дировании выделять из потока нужные данные.

Передача видеоданных всегда начинается с заголовка видео­последовательности (Заголовок ВП), за которым следует расшире­ние заголовка видеопоследовательности (Расшир. Зг. ВП). В этих частях потока данных передается, в частности, следующая инфор­мация:

-  ширина и высота изображения, выраженные количествами

пикселов;

- отношение ширины к высоте;

- частота кадров;

- скорость передачи двоичных символов для этого потока ви­деоданных;

-  признаки необходимости загрузки из потока видеоданньп матриц коэффициентов квантования;

- признак чересстрочной развертки;

- формат дискретизации (4:2:0, 4:2:2 или 4:4:4).

Далее могут передаваться расширение и данные пользовате­ля (Расшир. и польз.). Эта часть потока может отсутствовать, что показано стрелкой, идущей в обход блока. Расширение присутству­ет, в частности, если используется масштабируемость (см. ниже).

Каждая группа изображений может начинаться с заголовка (Заголовок GOP). Наличие этого заголовка обязательно для первой группы изображений в видеопоследовательности. Для других групп изображений заголовок может отсутствовать (стрелка в об­ход не показана), так как начало группы всегда совпадает с I-кадром. После заголовка группы изображений могут передаваться данные пользователя.

Перед каждым кадром или полем идет заголовок изображе­ния (Заголовок изобр.), содержащий номер этого изображения в видеопоследовательности, тип изображения (I, P или В) и другие данные. Затем могут передаваться расширение и данные пользова­теля. После этого передаются сами данные изображения (Данные изобр.). Заголовок каждого слайса (на рис. 4.6 не показано) содер­жит данные о положении этого слайса в изображении, значение параметра квантования и другую информацию. Данные -внутри ка­ждого макроблока также расположены в заданном порядке.

После передачи данных изображения может следовать другое изображение этой же группы (стрелка на блок Заголовок изобр.) или начинаться следующая группа изображений (стрелка на блок Заголовок GOP). Если передано последнее изображение в видео­последовательности, то передается признак окончания последова­тельности (Конец ВП).

 

ДЕКОДЕР ВИДЕОИНФОРМАЦИИ

 

В соответствии со стандартом в декодере (рис. 4.7) выполня­ются декодирование кодов переменной длины, деквантование, об­ратное ДКП, компенсация движения и восстанавливается исходная последовательность кадров.

Декодер содержит буферное запоминающее устройство (БЗУ); демультиплексор ДМп, декодеры кодов с переменной дли­ной кодовых слов ДКПДС, а также деквантователь Кв-1, блок об­ратного дискретного косинусного преобразования ДЮТ1, предска­затель Пред и ЗУ, аналогичные соответствующим блокам кодера. 1 актовая частота 27 МГц восстанавливается с использованием энных из декодируемого потока.

БЗУ на входе декодера выполняет функцию согласования по­стоянной скорости передачи двоичных символов во входном пото­ке данных с процессами в декодере, при которых данные из БЗУ считываются неравномерно во времени. С выходов демультиплек-сора кодированные данные изображения и значения параметра квантования поступают на ДКПДС и далее на деквантователь, а векторы движения поступают на ДКПДС и далее на предсказатель.

Так же как и в кодере, в декодере имеются два режима рабо­ты. При приеме I-кадров и передаваемых с внутрикадровым коди­рованием макроблоков Р-кадров и В-кадров на выходе блока об­ратного ДКП формируются блоки изображения. Переключатель на структурной схеме при этом находится в положении 1, и сигнал с блока обратного ДКП направляется на выход. При приеме макро­блоков Р-кадров и В-кадров, кодируемых в межкадровом режиме, переключатель находится в положении 2. В этом случае формиро­вание выходного сигнала происходит путем поэлементного сложе­ния поступающих с блока обратного ДКП значений разностей с предсказанным макроблоком, формируемым из элементов ранее декодированных изображений с использованием декодированных векторов движения.

Реализация декодера аппаратными, программными или аппа­ратно-программными средствами существенно проще, чем реали­зация кодера, так как в декодере не надо выполнять поиск соответ­ствующих областей в опорных изображениях, а именно этот поиск требует наибольшего количества вычислений.

 

МАСШТАБИРУЕМОСТЬ

 

Важной особенностью стандарта MPEG-2 является масшта­бируемость (Scalability), которая определяется как возможность получения изображения из части полного потока видеоданных. По­следний в случае наличия масштабируемости состоит из двух или более слоев (layers). Базовый слой дает возможность получить изо­бражение с некоторыми начальными параметрами качества. До­полнительные (enhancement) слои потока данных позволяют полу­чить изображение улучшенного качества. Стандарт MPEG-2 преду­сматривает возможность организации потоков видеоданных как с масштабируемостью, так и без нее.

Стандартом MPEG-2 предусмотрены следующие виды мас­штабируемости: по пространственному разрешению (Spatial Scalable), по отношению сигнал/шум (SNR Scalable), по времени (Temporal Scalable) и по разделению данных (Data partitioning Scal­able). Каждый вид масштабируемости, взятый отдельно, предпола­гает наличие в потоке данных двух уровней. В случае использова­ния одновременно двух или более видов масштабируемости число уровней в потоке данных может быть до трех.

Масштабируемость по пространственному разрешению за­ключается в получении от одного источника видеоинформации двух ТВ-сигналов с разными параметрами по разрешающей спо­собности. Например, сигналов ТВ обычной четкости и ТВ высокой четкости. Базовый слой потока данных содержит информацию, достаточную для воспроизведения изображение обычной четкости. Дополнительный слой содержит данные, позволяющие дополнить воспроизводимое изображение до изображения высокой четкости. Важно отметить, что объем этих дополнительных данных меньше, чем полный объем данных об изображении высокой четкости, так как часть информации передается в базовом слое.

Пользователи, имеющие декодеры, способные декодировать оба слоя потока данных, и, следовательно, более сложные и доро­гие, будут получать на экранах своих приемников изображение вы­сокой четкости. Другие пользователи, имеющие более простые и дешевые декодеры для декодирования только базового слоя, так­же смогут смотреть эти передачи, но в виде изображения обычной четкости.

Масштабируемость по отношению сигнал/шум дает воз­можность получать от одного источника видеоинформации изо­бражения с двумя уровнями отношения сигнал/шум и, следова­тельно, с двумя уровнями качества. Под шумом понимаются ошиб­ки, вносимые квантованием и кодированием. Базовый слой потокаданных может содержать изображение с большей степенью сжатия и, следовательно, менее качественное. Дополнительный слой при этом будет содержать данные, позволяющие при их добавлении к данным базового слоя получить изображение с меньшей степе­нью сжатия, т. е. более качественное.

Масштабируемость по времени позволяет получать от одно­го источника видеоинформации телевизионные изображения с двумя уровнями разрешающей способностью по времени. На­пример, базовый слой может содержать обычный ТВ-сигнал с час­тотой кадров 25 Гц и чересстрочной разверткой, а дополнительный слой - данные, позволяющие при их добавлении к данным базового слоя получить телевизионное изображение с частотой кадров 50 Гц и прогрессивной разверткой.

Масштабируемость по разделению данных позволяет ис­пользовать для передачи параллельно два канала связи. По одному из них, более помехозащищенному, передается базовый слой, со­держащий наиболее критичную к ошибкам информацию — заголов­ки, векторы движения, коэффициенты ДКП, соответствующие низ­ким пространственным частотам. По менее помехозащищенному каналу передаются менее критичные к ошибкам данные, например, коэффициенты ДКП, соответствующие высоким пространственным частотам.

Этот вид масштабируемости хорошо сочетается с предыду­щими тремя видами, при использовании каждого из которых базо­вый слой потока данных может передаваться по более помехоза­щищенному каналу связи, а дополнительный слой - по менее поме­хозащищенному. Тогда при хороших условиях приема пользователь, имеющий декодер для обоих слоев, сможет видеть изображение наивысшего качества, а при ухудшении этих условий, например, при удалении от передатчика, он сможет принимать ме­нее качественное изображение.

Следует отметить, что масштабируемость, заложенная в стандарте, пока редко встречается в практических реализациях цифровых телевизионных систем, однако она является важной предпосылкой их дальнейшего развития. Подход, основанный на масштабируемости, в последние годы стал характерным не только для цифрового телевидения, но и для многих других телекоммуни­кационных и информационных технологий.

 

УРОВНИ И ПРОФИЛИ MPEG-2

 

В табл. 4.4 показаны различные варианты телевизионных систем и методов кодирования телевизионных сигналов, преду­смотренные стандартом MPEG-2. Четыре строки таблицы соответ­ствуют четырем уровням пространственного разрешения:

Low (352x280 элементов) - уровень телевидения понижен­ной четкости, используемый в видеотелефоне и технике телекон­ференций;

Main (720x576 элементов) - уровень телевидения обычного разрешения;

High-1440 (1440x1152 элементов) - уровень телевидения высокого разрешения с форматом экрана 4:3;

- High (1920x1152 элементов) - уровень телевидения высоко­го разрешения с форматом экрана 16:9.

Вертикальные столбцы таблицы соответствуют новой градации цифровых телевизионных систем - профилям. С переходом на; более высокие профили, т. е. при продвижении по таблице слева направо, увеличивается эффективность используемых методов кодирования, появляются новые свойства телевизионной системы, в том числе масштабируемость, но, естественно, усложняются аппаратура и алгоритмы обработки сигналов.                                      

В клетках таблицы даны максимальные значения скорости передачи двоичных символов для вариантов стандарта. В трех нижних строках таблицы приведены дополнительные сведения о свойствах профилей, которые будут пояснены ниже.                     

Рассмотренный метод кодирования относится к главному' профилю (Main Profile). Как видно из таблицы, на главном уровне, , соответствующем телевидению обычного разрешения, скорость передачи двоичных символов в канале связи достигает 15 Мбит/с' Сравнив это значение с исходным значением 216 Мбит/с, соответствующей параллельному стыку по Рекомендации 601 МККР, видим, что осуществляется сжатие потока информации примерно в 15 раз.

На более высоких уровнях главного профиля, соответствующих телевидению высокого разрешения, скорость передачи двоичных символов в канале связи возрастает до 60 или 80 Мбит/с. Следует особо подчеркнуть, что для всех уровней разрешения данного профиля используются один и тот же набор методов кодирования.; В этом заключается совместимость разных уровней. На более высоких уровнях кодеры и декодеры должны иметь большее быстро-действие и больший объем ЗУ. Аппаратура более высоких уровней разрешения может работать на более низких уровнях разрешения.

Перейдем к рассмотрению других профилей стандарта MPEG-2. Простой профиль (Simple Profile) отличается от главного] профиля отсутствием В-кадров, что дает упрощение аппаратуры, но приводит к ухудшению качества изображения при той же скоро­сти передачи двоичных символов. Данный профиль может исполь­зоваться для записи изображений на магнитные или лазерные дис­ки и для других целей.

Высшие профили стандарта MPEG-2 характеризуются наличием масштабируемости, которая была рассмотрена ранее. Кроме того, на высших профилях возможно применение компонентного кодирования сигналов цветного телевидения с передачей цветоразностных сигналов не только через строку (4:2:0), но и в каждой строке (4:2:2).

Таким образом, в стандарте MPEG-2 даны параметры семей­ства цифровых телевизионных систем для разных применений и с разным качеством изображения, имеющих в своей основе сход­ные методы кодирования изображения. По этому стандарту могут создаваться не только системы ТВ-вещания, но и другие системы, предназначенные для передачи движущихся изображений в цифро­вой форме: телеконференции, интерактивный видеосервис и муль­тимедиа и т. д.

 

ОТЛИЧИЯ MPEG-1 И MPEG-2

 

Стандарт MPEG-2 является развитием и расширением стан­дарта MPEG-1. Поток видеоданных MPEG-2 содержит составляю­щие, которых нет в MPEG-1. По-видимому, наиболее важным от­личием двух стандартов является наличие в MPEG-2 масштаби­руемости и всех связанных с ней особенностей.

В стандарте MPEG-1 нет принципиальных ограничений на размеры кодируемых изображений и на использование чересстроч­ной развертки по сравнению с MPEG-2. Тем не менее, MPEG-1 предназначен для сжатия движущихся изображений с прогрессив­ной разверткой, частотой кадров до 30 Гц, числом строк до 576 и числом элементов в строке до 720 в поток данных со скоростью передачи двоичных символов до 1856000 бит/с.

На практике же MPEG-1 обычно используется для сжатия движущихся изображений размером 360x240 элементов с прогрес­сивной разверткой (формат SIF). Такое сжатие позволяет записы­вать видеопрограммы с некоторой потерей четкости на компакт-диски и воспроизводить их на ПК, выполняя декодирование в ре­альном времени чисто программными средствами.

Группа MPEG начинала работу над стандартом MPEG-3, оп­ределяющим методы сжатия для телевидения высокой четкости (ТВЧ). Однако в процессе работ над стандартом MPEG-2 в него были включены уровни, соответствующие ТВЧ (см. табл.4.4), по­этому необходимость в стандарте MPEG-3 отпала (о неправильном использовании этого термина см. в конце раздела 4.2.2).

 

ИСКАЖЕНИЯ ИЗОБРАЖЕНИЙ ПРИ СЖАТИИ ПО СТАНДАРТАМ MPEG. ДОСТИЖИМЫЕ СТЕПЕНИ СЖАТИЯ

 

Далее приведен перечень характерных искажений изображений, возникающих в результате кодирования по стандартам MPEG-1 или MPEG-2 при достаточно больших степенях сжатия [17]. Автор рекомендует читателям самим посмотреть искажения при внутри-кадровом кодировании. Это можно сделать, например, с помощью популярной программы Adobe Photoshop, но диапазон сжатия с её помощью невелик Хорошо заметные искажения при сжатии в 20-50 раз можно получить с помощью "древней" программы Alchemy.

Искажения, создаваемые внутрикадровым кодированием^ (см. последнюю страницу обложки).

1. Заметность границ блоков (блокинг-эффект).

Так как соседние блоки кодируются и декодируются независимо друг от друга, то при больших степенях сжатия после квантования и деквантования в них могут получаться заметно различаю-, щиеся коэффициенты ДКП, соответствующие постоянным и низ­кочастотным составляющим. В результате изображения в соседних блоках могут сильно отличаться друг от друга по яркости, цвету, характеру деталей и текстуры.

 

2. Размытие изображения.

Наблюдается при большом коэффициенте сжатия изображе­ния. Обусловлено ограничением либо полным обнулением коэф­фициентов ДКП, соответствующих высоким пространственным частотам, в результате чего мелкие детали изображения становятся размытыми или полностью пропадают.

 

3.  Появление окантовок на резких переходах яркости изо­бражения.

Этот эффект обусловлен значительными искажениями либо полным подавлением высокочастотных составляющих пространст­венного спектра.

 

4. Размытие цветов.

Имеет ту же причину, что и эффект окантовки на границах, но проявляется на участках изображения с резкими скачками в сиг­нале яркости.

 

5. Эффект ступенек.

Возникает как результат неправильного восстановления или передачи краев изображений внутри блока. Эффект проявляется,

как  правило,   при  восстановлении  изображения  в  увеличенном масштабе.

 

Искажения, создаваемые межкадровым кодированием

 

1. Ложные границы.

Наблюдаются при компенсации движения. Этот эффект яв­ляется прямым следствием межкадрового кодирования видеосиг­нала.

 

2. Эффект "комаров".

Проявляется как флуктуации яркости или цветности в блоке на границе между движущимся объектом и фоном. Эффект возни­кает вследствие различной степени квантования ошибок предска­зания от кадра к кадру.

 

3. Зернистый шум в стационарной области.

Проявляется как медленно движущиеся мерцающие шумы низкой интенсивности в областях, в которых имеется лишь малое движение либо движение отсутствует полностью.

 

4.  Появление неправильных цветов в макроблоке по отноше­нию к его исходным цветам и к цветам окружающей области.

 

5.  Появление следов за движущимися объектами, которые могут сохраняться сравнительно долго.

Какие же степени сжатия реально достижимы при использо­вании MPEG-2? За исходную скорость передачи двоичных симво­лов возьмем 216 Мбит/с, что соответствует Рекомендации 601 при формате дискретизации 4:2:2. При переходе к формату 4:2:0, кото­рый используется для телевизионного вещания "Main Profile / Main Level", скорость передачи двоичных символов сокращается до ве­личины 162 Мбит/с, относительно которой и будем определять степень сжатия.

В технических журналах отмечалось, что на практике для по­лучения студийного качества принятого изображения можно сжи­мать видеоинформацию до скорости передачи 9 Мбит/с, т. е. в 18 раз. Для получения качества изображения, сравнимого с обычным изображением по системе PAL - до 4...5 Мбит/с, т. е. в 30-40 раз. Качество изображения, сопоставимое с получаемым при воспроиз­ведении видеозаписей стандарта VHS, достигается при сжатии до уровня около 1,5 Мбит/с, т. е. более чем в 100 раз.

4.2.2. Кодирование и декодирование звукового сопрово­ждения в стандартах MPEG-1 и MPEG-2

Определим скорости передачи двоичных символов для сиг­налов звукового сопровождения в системе цифрового телевидения. Диапазон частот воспринимаемых человеком звуков приблизи­тельно от 20 Гц до 20 кГц, поэтому частота дискретизации для обеспечения высококачественного звуковоспроизведения должна быть не менее 40 кГц. Так, при записи музыки на компакт-диски применяется частота дискретизации 44,1 кГц.

Далее, диапазон громкости передаваемых звуков следует вы­брать не менее 90 дБ, чтобы иметь возможность воспроизводить с высокой точностью звучание хорошей музыки, например, симфо­нического оркестра в концертном зале. Для передачи такого диапа­зона громкости число уровней квантования должно быть не менее 32*10 для одной полярности сигнала. Поэтому число двоичных разрядов АЦП для квантования двуполярного звукового сигнал берется равным не менее 16, что дает не менее 65536 уровней кван­тования.

Таким образом, скорость передачи двоичных символов для звукового сигнала одного канала приблизительно равна 0,7 Мбит/с, а для стереофонического звука - 1,4 Мбит/с. Эти числа показывают, что в системе цифрового телевидения звуковую информацию также необходимо сжимать во много раз.

Методы сжатия звука, используемые в стандартах MPEG-1 и MPEG-2, основаны на учете свойств человеческого слуха и относятся к методам сжатия с частичной потерей информации. При : сжатии отбрасывается значительная часть информации, но качество воспроизводимого звука остается достаточно высоким. Следовательно, сжатие достигается в основном за счет уменьшения психо­физиологической избыточности.                                                       

 

КОДИРУЕМЫЕ ЗВУКОВЫЕ СИГНАЛЫ. УРОВНИ (LAYERS)

            

В соответствии со стандартами MPEG-1 и MPEG-2 частота; дискретизации входных звуковых сигналов может принимать значения 48,0, 44,1 и 32,0 кГц. В MPEG-2 дополнительно предусмотрены значения 24,0, 22,05 и 16 кГц [7, 10]. MPEG-1 позволяет ко­дировать два звуковых сигнала, что дает стереофонический звук,  a MPEG-2 - пять звуковых сигналов (левый, центральный, правый, левый тыловой и правый тыловой), что обеспечивает объемное звучание (Surround). Указанные дополнительные возможности MPEG-2 достигаются введением дополнительных составляющих, называемых расширениями (extension) в поток данных на выходе кодера. Помимо указанных выше, MPEG-2 предусматривает рас­ширение для дополнительного канала низких звуковых частот (subwoofer) и расширение для многоязычного звукового сопровож­дения (до семи каналов).

В MPEG-1 и в MPEG-2 есть три уровня кодирования звуко­вой информации (Layer I, Layer II и Layer III), которые имеют об­щую основу, но различаются между собой сложностью применяе­мых средств обработки и достигаемой степенью сжатия, причем оба эти показателя растут с ростом номера уровня. Декодер более высокого уровня может декодировать поток данных, созданный кодером более низкого уровня, но не наоборот.

 

ОПЕРАЦИИ, ВЫПОЛНЯЕМЫЕ ПРИ КОДИРОВАНИИ

 

На структурной схема кодера звуковой информации, приве­денной на рис. 4.8, показаны блок разложения на частотные под­диапазоны (РПд), блок квантования и кодирования (Кв. и Код.), блок формирования потока данных (ФПД) и блок психоакустиче­ской модели (ПАМ).

Входной цифровой звуковой сигнал разделяется на кадры (frame), каждый из которых кодируется и декодируется независимо от других кадров (Layer I и Layer II) или с учетом некоторых дан­ных из предыдущих кадров (Layer III). Размер кадра 384 отсчета для Layer I и 1152 отсчета для Layer II и Layer III.

В MPEG-1 и MPEG-2 используется кодирование звуковых сигналов с разложением на частотные поддиапазоны (общие сведения о таком методе кодирования см. в § 3.3). Число частотных поддиапазонов равно 32. Все поддиапазоны имеют одинаковую; ширину, которая зависит от частоты дискретизации входного сиг­нала. После разделения частота дискретизации уменьшается в 32 раза, так что число отсчетов в кадре в каждом поддиапазоне равно 12 для Layer I и 36 для Layer II и Layer III.

На всех уровнях разделение на поддиапазоны выполняется блоком цифровых фильтров. На уровне Layer III после фильтрации применяется модифицированное дискретное косинусное преобразование (МДКП). Отличия МДКП от обычного ДКП здесь не рас­сматриваются. Сочетание обычных фильтров и МДКП называется) блоком гибридной фильтрации (hibrid filterbank). В результате! МДКП в каждом поддиапазоне каждого кадра выделяются 18 час­тотных составляющих, представляемых коэффициентами МДКП, которые обрабатываются. Некоторые параметры выполнения МДКП и обработки получаемых коэффициентов могут изменяться в зависимости от свойств сигнала. Это позволяет уменьшить иска­жения, возникающие при разложении на поддиапазоны и дискрети­зации.

Затем выполняется квантование данных. Предварительно определяются масштабные множители (scalefactor). Для уровней Layer I и Layer II масштабный множитель зависит от максимально­го значения сигнала. При этом для Layer I масштабный множитель определяется для каждого поддиапазона в кадре, т. е. для 12 отсче­тов сигнала поддиапазона. Для Layer II масштабные множители определяются для групп по 12 отсчетов в каждом поддиапазоне, причем множитель может быть общим для двух или трех групп. Таким образом, для каждого поддиапазона в кадре определяется до трех масштабных множителей. Перед квантованием значения сиг­нала делятся на соответствующие масштабные множители.

Затем в блоке квантования и кодирования выполняется кван­тование данных. В основе сжатия звуковой информации на уровнях Layer I и Layer II лежит метод, называемый адаптивным распреде­лением битов (adaptive bit allocation). Этот метод заключается, в выполнении квантования с различным числом двоичных разрядов квантования для разных частотных поддиапазонов. При этом ис­пользуется равномерное квантование. Полное число битов, выде­ляемых на все поддиапазоны в данном кадре, зависит от частоты дискретизации входного сигнала и от заданной выходной скорости

передачи двоичных символов, т. е. от требуемой степени сжатия звуковой информации. Распределение битов по поддиапазонам осуществляется блоком ПАМ (см. ниже).

На уровне Layer III данными, подлежащими квантованию, являются не отсчеты сигналов поддиапазонов, а коэффициенты МДКП. В каждом поддиапазоне эти коэффициенты разделяются на блоки (scalefactor bands), для каждого из которых определяется масштабный множитель, на который делятся коэффициенты данно­го блока. Далее производится квантование по неравномерному за­кону. Разделение коэффициентов на блоки, выбор множителей и параметров квантования осуществляется блоком ПАМ так, чтобы минимизировать заметность искажений звука, создаваемых кванто­ванием. Подробнее о преимуществах, достигаемых на уровне Layer III, будет сказано ниже.

После квантования на уровнях Layer II и Layer III выполняет­ся кодирование полученных данных (на уровне Layer I дополни­тельное кодирование результатов квантования не производится).

На уровне Layer II квантованные отсчеты сигнала в каждом поддиапазоне объединяются по три, и полученные последовательности битов кодируются с использованием таблиц кодов с пере­менной длиной. Кроме того, на этом уровне кодируются с помо­щью соответствующих таблиц данные о распределении битов по поддиапазонам и данные о масштабных множителях.

На уровне Layer III квантованные коэффициенты МДКП ко­дируются по Хаффмену с использованием одной из 18 предусмот­ренных в стандартах таблиц кодирования. Выбор таблицы осуще­ствляется под управлением ПАМ. Значительное сжатие данных в результате кодирования основано на том, что после квантования многие коэффициенты МДКП становятся малыми величинами или нулями (это напоминает метод кодирования, использованный в JPEG).

Кроме того, на уровне Layer III кодируются с использовани­ем соответствующих таблиц данные о масштабных множителях, о разделении частотных поддиапазонов на блоки и т.д.

 

ПСИХОАКУСТИЧЕСКАЯ МОДЕЛЬ

                           

Блок психоакустической модели (ПАМ) управляет квантованием и кодированием, определяя параметры выполняемых при этом операций так, чтобы обеспечить наименьшую заметность искажений, создаваемых квантованием (шумов квантования). В стандартах MPEG-1, MPEG-2 предусмотрены два варианта ПАМ, отли­чающиеся числовыми параметрами.

Одним из факторов, учитываемых в ПАМ, является различ­ная чувствительность слуха на разных частотах. Наибольшая чув­ствительность характерна для частот 2...4 кГц, поэтому для под­диапазонов, попадающих в эту область, необходимо выделять больше битов, чтобы обеспечить более точное квантование. Ближе к обоим концам диапазона слышимых частот чувствительность слуха уменьшается, поэтому для соответствующих частотных под­диапазонов можно выделять меньше битов, т. е. осуществлять бо­лее грубое квантование.

Кроме того, алгоритм работы ПАМ учитывает явление маскирования (или маскировки) одних звуков другими. Громкие звуки маскируют имеющиеся одновременно с ними более тихие звуки в других частотных поддиапазонах, причем чем дальше по частоте отстоит маскируемый тихий звук от маскирующего громкого звука, тем слабее сказывается эффект маскирования. Например, если мас­кирующий звук имеет частоту  1000 Гц, а маскируемый звук -1100 Гц, то последний не будет слышен, если разница в уровнях ; громкости составляет не менее 18 дБ. Если же маскируемый звук имеет частоту 2000 Гц, то для полной маскировки необходима разница уровней громкости не менее 45 дБ. Помимо этого, громкий звук маскирует звуки, следующие за ним в интервале времени до 100 мс, и даже звуки, опережающие его на 4...5 мс.

Чтобы выполнить распределение битов в блоке ПАМ анали­зируется спектр исходного звукового сигнала (не разложенного на поддиапазоны). Для этого производится быстрое преобразование Фурье участков этого сигнала по 512 (Layer I) или по 1024 (Layer II и Layer III) отсчетов, после чего вычисляются спектр мощности звукового сигнала и величины звукового давления в каждом час­тотном поддиапазоне.

Затем анализируются тональные (синусоидальные) и нето­нальные составляющие звукового сигнала, определяются локаль­ные и глобальный пороги маскировки и вычисляются отношения сигнал/маскирующий сигнал для всех поддиапазонов, на основании которых производится распределение битов по поддиапазонам (Layer I и Layer II) или выбор параметров обработки коэффициен­тов МДКП (Layer III).

В тех поддиапазонах, в которых искажения звука, вызывае­мые квантованием, менее заметны для слушателя или маскируются большим уровнем сигнала в других поддиапазонах, квантование делается более грубым, т. е. для этих поддиапазонов выделяется меньше битов. Для полностью маскируемых поддиапазонов битов совсем не выделяется. Благодаря этому удается существенно уменьшить количество передаваемой информации при сохранении достаточно высокого качества звука.

Как уже отмечалось, ширина поддиапазонов одинакова. На­пример, если частота дискретизации равна 44,1 кГц, то каждый поддиапазон имеет ширину 690 Гц. В то же время ширина диапа­зона частот, в котором маскирование сказывается одинаково (кри­тического диапазона - critical band) зависит от положения этого диапазона на оси частот. На частотах порядка 100 Гц ширина кри­тического диапазона около 50 Гц, а на частотах порядка 10 кГц почти 1,5 кГц. Поэтому разделение сигнала на одинаковые частот­ные поддиапазоны неоптимально с точки зрения получения наи­лучшего качества звука, хотя и наиболее удобно для реализации.

На уровне Layer III сигнал каждого поддиапазона проходит МДКП, каждый коэффициент которого представляет частотную составляющую. Всего таких составляющих 18 в каждом поддиапа­зоне. Шаг по оси частот, таким образом, уменьшается в 18 раз, т. е. до примерно 38 Гц при частоте дискретизации 44,1 кГц. Это мень­ше ширины самого узкого критического диапазона. В пределах од­ного частотного поддиапазона блоки коэффициентов МДКП (scalefactor bands) могут квантоваться по-разному, что позволяет более точно учесть маскирование на разных частотах. Это позволя­ет говорить об увеличении разрешения по частоте в 18 раз, дости­гаемом на Layer III.

 

СТРУКТУРА ПОТОКА ДАННЫХ ЗВУКОВЫХ СИГНАЛОВ

 

Формирование потока данных осуществляется в блоке ФПД (рис. 4.8). Самой крупной структурной единицей потока данных явля­ется звуковая последовательность (Audio Sequence), которая состоит из произвольного числа кадров и не имеет собственного заголовка.

Кадр начинается с заголовка, структура которого одинакова для MPEG-1 и MPEG-2. Заголовок содержит синхрослово, данные об уровне кодирования, о частоте дискретизации кодируемых зву­ковых сигналов, о скорости передачи двоичных символов в потоке данных, о режиме кодирования (стерео, два независимых сигнала и т.д.) и другую информацию.

Далее в кадре следует область звуковых данных, в которой сначала следуют данные для контроля ошибок, затем данные о распределении бит, о масштабных множителях и, наконец, коди­рованные данные о сигналах по частотным поддиапазонам.

При использовании MPEG-2 далее может следовать расши­рение, содержащее данные дополнительных звуковых каналов.

 

ДЕКОДИРОВАНИЕ ЗВУКОВОЙ ИНФОРМАЦИИ

 

Структурная схема декодера приведена на рис. 4.9. Входные данные поступают на блок распаковки потока данных (РпПД), в кото­ром по синхрословам выделяются отдельные кадры, поступающие затем на блок декодирования и деквантования (КодГ-1  и КвГ-1).

Данные, содержащиеся в кадре, декодируются в соответст­вии с порядком их следования и таблицами кодов, которые содер­жатся в программе работы декодера. Декодированные данные о распределении битов и о масштабных множителях используются для декодирования и деквантования звуковых данных. После де-квантования на уровнях Layer I и Layer II отсчеты сигналов под­диапазонов умножаются на соответствующие масштабные множи­тели. На уровне Layer III выполняется обратное МДКП.

После декодирования и деквантования отсчеты сигналов всех поддиапазонов объединяются в выходной цифровой звуковой сиг­нал, или несколько сигналов, если звук многоканальный.

Аппаратные и программные реализации декодера значитель­но проще, чем реализации кодера, так как в декодере не требуется психоакустическая модель. Так декодирование стереофонического звука, сжатого с применением уровня Layer III, производится в ре­альном времени программными средствами на обычном ПК, в то время как для выполнения соответствующего кодирования необхо­димо сначала записать звуковой сигнал в несжатом виде в файл, а затем осуществить сжатие, что занимает существенно большее время, чем воспроизведение.

 

КОДИРОВАНИЕ МНОГОКАНАЛЬНОГО ЗВУКОВОГО СОПРОВОЖДЕНИЯ

 

Стандарт MPEG-1 допускает четыре режима кодирования:

-  обычный (независимый) стереофонический режим (stereo), к котором сигналы двух каналов кодируются независимо друг от друга;

-  соединенный стереофонический режим (joint_stereo), в котором для увеличения степени сжатия кодируются, например, не сами сигналы левого и правого каналов, а их сумма и разность;

- два     совершенно     независимых     звуковых     сигнала dual_channel);

- один звуковой сигнал (single_channel). Особенности этих режимов здесь не рассматриваются. Стандарт MPEG-2 дает возможность кодировать до пяти каналов звука: Lлевый, R — правый, С — центральный, LSлевый тыловой и RS - правый тыловой. При этом возможны варианты, отличающиеся числом кодируемых каналов и расположением источников звука в пространстве, например, два передних канала и ва тыловых, три передних и один тыловой и т.д. Возможно также расширение для кодирование отдельного канала НЧ эффектов.

Возможны два варианта совместимости с MPEG-1. Как ука­зывалось выше, каждый кадр в потоке данных MPEG-2 состоит из основной части, которая может декодироваться декодерами MPEG-1, и расширений, которые декодерами MPEG-1 не воспринимаются. Обозначим L0 и R0 сигналы, данные которых помещаются в основ­ные части кадров в потоке данных.

В соответствии с первым вариантом перед кодированием вы­полняются операции, называемые матрицированием

 

L0 = L + х*С + y*LS, R0 = R + x*C + z*RS,                     (4.2)

 

гдe x, у, z - постоянные коэффициенты. При декодировании деко­дером MPEG-2 выполняются обратные операции (дематрйцированиe). Такой вариант называется "совместимым назад" (backwards compatibility). При использовании декодеров MPEG-1 этот вариант обеспечит в воспроизводимых сигналах левого и правого каналов наличие информации о центральном и тыловых каналах, т. е. зву­ковоспроизведение будет более полным. Однако операции матри­цирования и дематрицирования вносят дополнительные шумы.

В соответствии со вторым вариантом матрицирование и, естественно, дематрицирование не выполняются. При этом L0 = L, R0 = R.    Такой    вариант    называется    "несовместимым    назад" (nonbackward compatible - NBC), д обеспечивает несколько лучшее качество звука при использовании декодеров MPEG-2.

Для   увеличения   степени   сжатия   многоканального   звука в MPEG-2 предусмотрено использование адаптивного кодирования с предсказанием сигналов каналов, данные о которых помещаются в расширения кадров, а также некоторые другие средства уменьшения межканальной избыточности звуковой информации.

 

ДОСТИЖИМОЕ СЖАТИЕ И КАЧЕСТВО ЗВУКА

 

Для MPEG-1 и для MPEG-2 в случае отсутствия расширенй потоки сжатых звуковых данных имеют следующие диапазоны значений скорости передачи двоичных символов:

- Layer I - 32...448 кбит/с (обычно 192 кбит/с на канал);

- Layer II - 32...384 кбит/с (обычно 128 кбит/с на канал);

- Layer III - 32...320 кбит/с (обычно 64 кбит/с на канал).

В случае кодирования по стандарту MPEG-2 звуковых сигна­лов с частотами дискретизации 16, 22,05 и 24 кГц минимальные и максимальные значения скорости передачи двоичных символов уменьшаются в два и более раз, причем самая минимальная ско­рость передачи равна 8 кбит/с. Если же кодируется многоканаль­ный звук, и выходной поток данных содержит соответствующие расширения, то максимальные значения скорости передачи двоич­ных символов в MPEG-2 увеличиваются до примерно 1000 кбит/с.

Кодер вносит задержку в распространение данных, так как во-первых при выполнении операций кодирования требуется иметь в ЗУ кодера определенное число последних отсчетов звукового сигнала, а во-вторых выполнение требуемых вычислительных опе­раций над этими отсчетами занимает некоторое время. Минималь­ные длительности задержек для Layer I-50 мс, для Layer II -100 мс, для Layer III - 150 мс, однако задержки в реальных кодерах могут быть значительно больше.

При одной и той же скорости передачи двоичных символов в выходном потоке данных кодирование более высокого уровня обеспечивает более высокое качество воспроизводимого звука. Это обусловлено тем, что более точно учитываются свойства сжимае­мого сигнала, более гибко изменяются параметры квантования, а на уровне Layer III значительно повышается разрешающая спо­собность по частоте. Значения, указанные в скобках как обычные, соответствуют качеству звука, сопоставимому с качеством звуча­ния обычных (записанных без сжатия) компакт-дисков.

Уровень кодирования Layer III обеспечивает сжатие до 64 кбит/с на канал, т. е. примерно в 11-12 раз. Этот уровень ис­пользуется при записи получивших широкое распространение ком­пьютерных музыкальных дисков, обеспечивающих при воспроиз­ведении с помощью ПК 10... 11 часов высококачественного звука. Записанные файлы со сжатой звуковой информацией обычно име­ют расширение "mpЗ", а на дисках или их упаковках часто написа­но "MPEG-3", что, как следует из изложенного, неправильно.

 

4.2.3. Системный уровень MPEG-2

 

Перейдем к рассмотрению системной части стандарта MPEG-2, которая описывает форматы мультиплексированных по­токов данных, объединяющих сжатые видеоданные и данные зву­кового сопровождения от одного или нескольких источников, а также включающих другие виды информации [5, 8].

Стандартом предусмотрено два вида таких мультиплексиро­ванных потоков: транспортный поток (Transport Stream - TS) и программный поток (Program Stream).

На рис. 4.10. показана структурная схема процесса формиро­вания транспортного потока. Видеосигналы, т. е. яркостный и цветоразностные сигналы данной телевизионной программы, а также сигналы одного или нескольких каналов звукового сопровождения данной программы преобразуются в цифровую форму в АЦП и ко­дируются в соответствующих кодерах, как это было описано выше. Потоки данных на выходах кодеров называются элементарными потоками (ES - Elementary Stream).

 

В блоках, называемых пакетизаторами, данные разделяются на пакеты - блоки данных, начинающиеся с заголовков опреде­ленной структуры. Получающиеся потоки называются пакетизиро­ванными элементарными потоками (PES). В каждом пакете в PES объединены данные, относящиеся к структурной единице входного сигнала, например к телевизионному кадру или к кадру сжатого звукового сигнала. Размеры пакетов PES могут быть разными.

Пакетизированные элементарные потоки нескольких телеви­зионных программ, а также передаваемых дополнительных данных и сигналов управления объединяются в единый транспортный по­ток (TS - Transport Stream). При этом данные перераспределяются в пакеты TS, имеющие фиксированную длину 188 байт и определенную структуру заголовка (стартовой синхрогруппы пакета), занимающего 4 байта. Следует отметить, что транспортный поток может содержать и всего один элементарный поток, но фиксированная длина пакетов TS сохраняется. Далее транспортный поток проходит кодер канала (на рис. 4.10 не показан), в котором выполняется помехоустойчивое ко­дирование, и передается по каналу связи.

Каждый пакет TS начинается с идентификатора пакета (PID), который определяет его тип и принадлежность находящихся в нем данных к одному из передаваемых элементарных потоков. Каждый пакет может содержать данные только одного элементар­ного потока. Пакеты с данными разных элементарных потоков пе­редаются в транспортном потоке в произвольном порядке.

Специальные пакеты типов PAT (Program Association Table) и PMT (Program Map Table) несут информацию о том, какие значения идентификаторов соответствуют тому или иному элементарному потоку. В особых пакетах в среднем 10 раз в секунду передаются летки времени (PCR - Program Clock Reference), содержащие зна-1ения моментов времени по часам в передающей части системы. 1о этим меткам в декодирующей аппаратуре восстанавливаются актовые частоты каждого отдельного элементарного потока, кото­рые  между  собой,  вообще  говоря,  не  синхронизированы,  хотя и имеют стандартное значение 27 МГц ± 1350 Гц.

Структурная схема приема и декодирования транспортного потока приведена на рис. 4.11. На вход поступает поток данных из канала связи, который преобразуется декодером канала в транс­портный поток TS. В блоке декодирования и демультиплексирова­ния (Декодер и ДМп TS) из транспортного потока извлекаются па­кеты PAT и РМТ, из которых получают идентификаторы пакетов, содержащих данные требуемых элементарных потоков. Далее па­кеты с такими идентификаторами извлекаются из транспортного потока, распаковываются, и из содержащихся в них данных фор­мируются элементарные потоки видео и звуковой информации, поступающие на соответствующие декодеры.

В блоке синхронизации (Синхр.) имеются генераторы такто­вых импульсов для видео и звукового декодеров. Подстройка час­тот этих генераторов производится по меткам времени PCR так, чтобы число тактовых импульсов, сформированных в декодере ме­жду двумя метками, соответствовало интервалу между моментами, зафиксированными в этих метках. Благодаря этому обеспечивают­ся правильные длительности интервалов времени в декодируемой телевизионной программе. Если одновременно должны декодироваться несколько элементарных потоков с разными временными базами (несколько независимых телевизионных программ), то эти потоки приводятся к одной временной базе.

Программный поток MPEG-2 аналогичен системному уров­ню стандарта MPEG-1 и содержит элементарные потоки одной те­левизионной программы или нескольких программ, имеющих об­щую временную базу, т. е. взаимно синхронизированных. Длины пакетов программного потока могут быть различными. Структур­ные схемы формирования и приема программного потока похожи на приведенные выше схемы для транспортного потока. Про­граммный поток может быть преобразован в транспортный поток. Возможно и обратное преобразование.

Транспортный поток рекомендуется использовать при пере­даче по каналам связи с помехами, а программный поток - при от­сутствии помех.

Следует также отметить, что синтаксис транспортного и про­граммного потоков позволяет обеспечивать условный (ограниченный, по паролю) доступ к передаваемой информации, хотя непосредственно в стандарте MPEG-2 средства решения этой задачи не определены.

Сжатые по стандартам MPEG-1, MPEG-2 видео- и аудиодан­ные могут также записываться в файлы. Видеопрограммы, сжатые по MPEG-1, записываются на компьютерные видеодиски, а сжатые по MPEG-2 - на диски DVD.

 

4.3. Стандарт кодирования видео- и звуковой информации MPEG-4

 

Новым проектом группы MPEG является стандарт MPEG-4. Работы по этому проекту были начаты в июле 1993 г. Рабочий про­ект был закончен в ноябре 1996 г. и согласован на уровне Комитета Международной организации по стандартизации в ноябре 1997 г. Большинство документов, входящих в стандарт MPEG-4, были приняты в конце 1998 - начале 1999 годов [15]. В 1999 г. появилась вторая версия MPEG-4.

Стандарт MPEG-4 охватывает следующие области:

- цифровое телевидение и видеосвязь;

- интерактивную графику, синтез изображений;

-  интерактивные мультимедийные приложения, в том числе  передаваемые через Интернет.

Стандарт MPEG-4 позволяет передавать видео- и звуковую информацию с очень большими коэффициентами сжатия по узко­полосным каналам связи, что необходимо как в системах видеосвя­зи при использовании обычных телефонных сетей и относительно низкоскоростных цифровых каналов (64 кбит/с), так и для передачи движущихся изображений и звукового сопровождения через Ин­тернет. Кроме того, новый стандарт обеспечивает интерактивность, т. е. возможность для пользователя управлять процессом передачи ему информации путем запросов, выбора вариантов и других дей­ствий. Таким образом, стандарт MPEG-4 является важным шагом на пути к интерактивному телевидению будущего.

 

ОБЪЕКТЫ И СЦЕНЫ

 

Важнейшей особенностью MPEG-4 является объектно-ориентированный подход, сущность которого заключается в том, что передаваемое изображение со звуковым сопровождением пред­ставляется как совокупность видео- и аудио- объектов.

Видеообъектами (VO - visual object) могут быть изображения людей и предметов, перемещающихся перед неподвижным фоном, и сам неподвижный фон. Обычное телевизионное изображение может быть единым видеообъектом.

Аудиообъектами (АО - audio object) могут быть голоса людей, музыка, другие звуки. Связанные видео- и аудиообъекты, например, изображение человека и его го­лос, образуют аудио-визуальный объект (AVOs - audio-visual object). Видео- и аудиообъекты составляют сцену. MPEG-4 содер­жит специальный язык для описания сцен - BIFS (Binary Format for Scenes - двоичный формат для сцен).

Описание сцены имеет иерархическую структуру. На рис. 4.12 приведен пример структуры описания сцены, в которой Шер­лок Холмс и доктор Ватсон беседуют в комнате на Бейкер-стрит. Верхним уровнем структуры является сцена в целом. Она содержит неподвижный фон, образованный изображениями стен, мебели и т.д. В сцене присутствуют два персонажа, каждый из которых яв­ляется аудио-визуальным объектом, включающим видеообъект -движущееся изображение персонажа, и аудиообъект - голос этого персонажа. Кроме того, в сцене присутствует камин, который так­же является аудио-визуальным объектом, включающим видеообъ­ект изображение непрерывно движущегося огня, и аудиообъект звуки, исходящие от камина.

 

Описание каждой сцены включает данные о координатах объектов в пространстве и об их привязке ко времени. Видеообъек­ты могут размещаться в разных плоскостях видеообъектов (VOP -video object plane), так что видеообъекты, находящиеся в более близких к зрителю плоскостях сцены перекрывают при движении видеообъекты, находящиеся в более дальних плоскостях.                 

Сцена, представляемая пользователю, может содержать все объекты, информация о которых поступает в принимаемом потоке данных, или только часть этих объектов. Состав сцены может оп­ределяться поставщиком мультимедийной продукции, например в зависимости от суммы денег, заплаченных пользователем. В интерактивном режиме пользователь может влиять на развитие сцены, подавая соответствующие команды. MPEG-4 позволяет также передавать пользователю дополнительную информацию об объектах, которая может отображаться, например, в виде окна с текстом появляющегося, когда пользователь выбрал с помощью "мышки"; какой-либо объект в сцене.                                                               

Ясно, что для реализации интерактивных возможностей: MPEG-4 необходим не обычный телевизор, а ПК, подключенный к Интернет.                                                                                      

 

КОДИРОВАНИЕ ВИДЕООБЪЕКТОВ

                               

 

В отличие от MPEG-1, MPEG-2 в которых применяется фик­сированный алгоритм кодирования, в MPEG-4 используется целый набор методов кодирования, включающий как алгоритмы, сходные с применяемым в MPEG-1, MPEG-2, так и принципиально новые

методы кодирования, основанные на понятии видеообъекта. Выбор того или иного метода кодирования в конкретном случае определя­ется характером изображения и требуемым коэффициентом сжатия информации. MPEG-4 позволяет эффективно сжимать как нату­ральные, так и синтетические изображения и объединять их при воспроизведении.

Обобщенная структурная схема видеокодера MPEG-4 для на­туральных изображений приведена на рис. 4.13. На схеме обозна­чены ДКП - блок прямого дискретного косинусного преобразова­ния; ДКП-1 - блок обратного дискретного косинусного преобразо­вания; Кв - квантователь; Кв-1 - деквантователь, т. е. блок, выполняющий обратную квантованию операцию; ЗУ - запоми­нающее устройство; Пред. 1, Пред.2 - блоки, выполняющие форми­рование предсказанных изображений в разных режимах кодирова­ния; ОД - блок оценки движения и формирования векторов движе­ния; Мп - мультиплексор; БЗУ - буферное запоминающее устройство; УКС - блок управления коэффициентом сжатия изо­бражения. Кроме того, на схеме показаны блоки "Кодер формы" и "Кодер текстур", сумматор, вычитающее устройство и переклю­чатель "Выбор", с помощью которого осуществляется подключение одного из блоков предсказания в зависимости от используемого метода кодирования. Данная схема является упрощенной и не по­казывает многие блоки и связи.

 

На вход кодера поступают исходные видеоданные, например, цифровой телевизионный сигнал. На выходе кодера формируется ; элементарный поток видеоданных.                                                    

Кратко  рассмотрим  основные  методы  кодирования  натуральных изображений.                                                                      

1.   Видеообъекты,   представляющие   собой   прямоугольные i изображения (например, обычные ТВ кадры), кодируются методом, аналогичным применяемому в MPEG-1, MPEG-2, т. е. с использо­ванием гибридного кодирования (см. § 4.2). Метод включает пред­сказание с оценкой и компенсацией движения для макроблоков 16x16 пикселов и ДКП ошибки предсказания в блоках 8x8 пиксе­лов. Для определенности будем считать, что предсказание в этом случае  выполняется  в  блоке  Пред.1.   Связь  выхода  блока  ОД с мультиплексором и средства управления коэффициентом сжатия на рис. 4.13 не показаны.

Этот вид кодирования имеет два уровня по скорости переда­чи двоичных символов в выходном потоке данных.

Уровень очень низкой скорости передачи VLBV (Very Low Bitrate Video) предназначен для передачи изображений с низким пространственным разрешением (форматы QCIF и SQCIF) и пони­женной частотой кадров (10... 15 Гц) по узкополосным каналам свя­зи со скоростями передачи двоичных символов 5...64 кбит/с. Этот уровень может использоваться в видеотелефонной связи с невысо­ким качеством изображения.

Уровень высокой скорости передачи (High bitrate) предна­значен для передачи изображений с более высоким пространствен­ным разрешением, вплоть до формата по Рекомендации 601, по различным каналам связи со скоростями передачи двоичных сим­волов 64 кбит/с... 10 Мбит/с. Этот уровень может использоваться в видеосвязи с высоким качеством изображения и для передачи телевизионных программ.

2.   Кодирование, основанное на содержании (content-based coding), позволяет получить существенно большее сжатие изобра­жений   за  счет  учета  свойств   видеообъектов,   присутствующих в сцене.

Одной из возможностей, создаваемых этими методами, явля­ется кодирование видеообъектов сложной формы. Например, в ка­честве видеообъекта может быть взята область изображения, отли­чающаяся от окружения яркостью или цветом. Эта область может перемещаться и деформироваться. При формировании предсказан­ного изображения с компенсацией движения смещаются не прямо­угольные макроблоки, а выделенные области, которые к тому же могут изменять свою форму. При этом ошибка предсказания ока­зывается значительно меньше, и объем информации, содержащейся в разности предсказанного и настоящего изображений очередного кадра, существенно уменьшается. В кодере, показанном на рис. 4.13, такой вариант предсказания выполняется в блоке Пред.2.

В то же время, вместо векторов движения, показывающих перемещение прямоугольного макроблока как целого, необходимо передать параметры, характеризующие изменения координат и формы видеообъекта. Эти параметры определяются и кодируются в Кодере формы, после чего они включаются через мультиплексор Мп в выходной поток данных.

Данные о форме видеообъекта занимают значительно больше двоичных символов, чем простой вектор движения. Например, если граница области, выделенной как видеообъект, аппроксимируется многоугольником, то для описания смещения и деформации этой области необходимо передать изменения координат всех углов многоугольника. Тем не менее, общий выигрыш в уменьшении объема передаваемой информации по сравнению с MPEG-1, MPEG-2 оказывается существенным.

3. Для сжатия изображений неподвижного фона и текстур протяженных объектов используется метод кодирования, основан­ный на вэйвлет-преобразовании (см. § 3.3). Этот метод обеспечива­ет высокие степени сжатия и многоступенчатую масштабируемость по пространственному разрешению.

Перейдем к методам кодирования синтетических видеообъ­ектов, создаваемых с использованием средств машинной графики. Такие видеообъекты могут кодироваться рассмотренными выше методами для натуральных изображений. Однако значительно эф­фективнее использовать их параметрическое описание.

В стандарте MPEG-4 используется модель человеческого ли­ца, построенная на основе сетки из треугольных ячеек, которые заполняются текстурой. Пример "сеточной" модели лица показан на передней обложке данной книги. Имеется также трехмерная мо­дель человеческого тела в виде трехмерной сетки. Двумерные изо­бражения человека получаются путем построения проекции трех­мерной модели на нужную плоскость.

Форма, текстура и выражение лица в статике описываются  параметрами FDP (Facial Definition Parameters), а в динамике - параметрами FAP (Facial Animation Parameters). Для тела в статике задаются параметры BDP (Body Definition Parameters), а в динамике   > - ВАР (Body Animation Parameters). Статические параметры FDP и BDP передаются в начале сеанса связи. Для воспроизведения ми­мики лица и движений тела собеседника в процессе разговора передаются динамические параметры FAP и ВАР.

Синтетические изображения лица и тела человека могут ис­пользоваться в системах видеосвязи вместо настоящих изображений собеседника. Передача параметров модели требует существенно меньшей скорости передачи двоичных символов, чем передача реального изображения.

В некоторых случаях можно в приемной части системы по­лучить информацию об изменениях изображения объекта на основе другой информации. Такой случай характерен для передачи изо­бражения лица говорящего человека. Движения рта и мимика во многом определяются произносимыми словами и могут быть син­тезированы на основе принятого звукового сигнала, содержащего голос собеседника. При этом требуемая для осуществления видео­связи скорость передачи двоичных символов еще уменьшается.

Помимо лица и тела могут синтезироваться произвольные двумерные изображения также в виде сеток с треугольными ячей­ками, заполняемыми текстурой.

Стандартом MPEG-4 обеспечивается многоуровневая мас­штабируемость по пространственному разрешению, по времени и по качеству изображения. В стандарте предусмотрены средства, обеспечивающие работоспособность системы передачи видеоин­формации при наличии помех и ошибок в канале связи. Эти вопро­сы здесь подробно не рассматриваются.

 

КОДИРОВАНИЕ АУДИООБЪЕКТОВ

 

Кодирование звуковой информации в MPEG-4 также может осуществляться разными способами, дающими различные объемы передаваемых данных и различное качество звука на выходе сис­темы. Предусмотрено три уровня кодирования.

1. Кодирование музыки с обеспечением высокого и среднего качества выполняется тем же методом, что и в стандарте MPEG-2.

При этом обеспечивается передача до восьми каналов звука при скорости передачи двоичных символов 16...64 кбит/с на канал.

2.  Для передачи речи с высоким и средним качеством ис­пользуется метод кодирования CELP (Code Excited Linear Predictive - кодирование возбуждений с линейным предсказанием), который обеспечивает скорости передачи 6...24 кбит/с при частотах дискре­тизации 8 кГц или 16 кГц.

3.  Параметрическое кодирование речи, которое обеспечивает сжатие при сохранении разборчивости до скоростей 2...4 кбит/с при частоте дискретизации 8 кГц.

Самые низкие скорости передачи 0,2... 1,2 кбит/с достигаются для искусственно синтезированной речи и синтезированной в соот­ветствии со стандартом MIDI музыки.

Кодирование аудиообъектов также обладает свойством мас­штабируемости. Например, на основном уровне потока данных может использоваться метод кодирования CELP, а дополнительный уровень обеспечивает качество звука, соответствующее кодирова­нию по MPEG-2. Более сложный и дорогой декодер может декоди­ровать основной и дополнительные слои потока данных и позволя­ет получать более высокое качество воспроизводимого звука, чем более простой и дешевый декодер, воспринимающий только ос­новной уровень потока данных.

 

ПЕРЕДАЧА ДАННЫХ

 

Структурная схема формирования передаваемых потоков данных в стандарте MPEG-4 приведена на рис. 4.14. Элементарные потоки ES (Elementary Streams) с видео- и аудиокодеров поступают на уровень синхронизации (SL - Sync Layer) и в блоках SL преобра­зуются в пакетизированные SL-потоки (SL-packetized Streams), в которые введены метки времени и данные о тактовых частотах. Это позволяет привязать к единой шкале времени различные ви­део- и аудиообъекты. Далее пакетизированные SL-потоки посту­пают на уровень DMIF (DMIF Layer).

DMIF (Delivery Multimedia Integration Framework - интегри­рованная система доставки мультимедиа) - это протокол, обеспе­чивающий управление потоками данных для мультимедиа. Как всякий протокол передачи данных (например, протоколы, исполь­зуемые в Интернет), DMIF обеспечивает посылку запросов от пользователя к источнику информации и пересылку запрошенных данных пользователю. Кроме того, DMIF дает пользователю сред­ства управления в виде интерфейса пользователя DMIF-Application Interface (DAI), позволяя подавать команды для выбора информа­ции (например, фильма) и формируя сообщения о получении доступа к этой информации или о возникших при этом трудностях.

DMIF охватывает три основные сферы применения MPEG-4: передачу по интерактивным сетям (Интернет), передачу по обыч­ным вещательным каналам и запись видеопрограмм на компакт-диски.

На уровне DMIF возможно объединение в блоках FlexMux пакетизированных   SL-потоков   во   FlexMux   потоки    (FlexMux Streams).   Эта  операция  является  необязательной,  так  как  под управлением   DMIF   могут   передаваться   и   пакетизированные SL-потоки.

Затем данные переходят на уровень TransMux (TransMux Layer), где FlexMux-потоки или SL-потоки объединяются и преоб­разуются в транспортный поток. Общее название транспортного потока TransMux Stream. В стандарте MPEG-4 этот поток не опре­делен. В качестве его может использоваться, например, транспорт­ный поток (TS) MPEG-2, который был описан в разделе 4.2.3. Еще один вариант TransMux потока - запись в файл. Возможно использование других транспортных протоколов, которые здесь не рас­сматриваются.

До сих пор речь шла о нисходящем (downstream) потоке, ко­торый несет данные от источников видеопрограмм к зрителям. Для реализации интерактивного телевидения и различных видов муль­тимедийного сервиса необходима передача информации от зрителя на головную станцию системы. Для этого передается восходящий поток данных (upstream), скорость передачи двоичных символов в котором обычно значительно меньше, чем в нисходящем потоке.

 

ДЕКОДИРОВАНИЕ И ВОСПРОИЗВЕДЕНИЕ

 

Структурная схема декодирующей части системы по стан­дарту MPEG-4 приведена на рис. 4.15. На схеме показаны демультиплексор ДМп, буферные ЗУ БЗУ1 и БЗУ2, декодеры ДКд и блок объединения БОб.

 

На вход поступает транспортный поток TransMux Stream, из которого в демультиплексоре выделяются элементарные потоки, данные каждого из которых записываются в соответствующее БЗУ1. Назначение БЗУ1 - накапливать неравномерно поступающие по каналу связи данные и по мере надобности передавать их на де­кодер.

Далее выполняется декодирование элементарных потоков. Получаемые при этом данные видео- и аудиообъектов записывают­ся в БЗУ2. Элементарные потоки, относящиеся к одному объекту, могут декодироваться совместно.

При демультиплексировании из общего потока данных выделяются также описание сцены и метки времени, поступающие на 1 блок объединения. Данные отдельных объектов считываются из соответствующих БЗУ2 и из них в блоке объединения формируются цифровые сигналы изображения и звука, поступающие далее на воспроизводящие устройства (на рис. 4.15 не показаны). При этом  обеспечивается синхронизация всех видео- и аудиообъектов. 

        

4.4. Другие стандарты  кодирования  видео  и звуковом информации

                                                                     

В этом разделе дается краткий обзор некоторых стандартом кодирования видео и звуковой информации, применяемых в системах видеосвязи и ряде других областей.                                        

 

РЕКОМЕНДАЦИИ Н.261, Н.262, Н.263

 

Рекомендация ITU-T H.261, принятая в 1993 г., определяет методы кодирования и декодирования видеосигналов для передачи по относительно узкополосным цифровым каналам связи со скоро­стями передачи двоичных символов, равными п*64 кбит/с, где п- 1...30 [12]. Основная область применения Рекомендации Н.261 - системы компьютерной видеосвязи.

Кодируемые изображения могут иметь форматы С IF (352x288) или QCIF (176x144). Формат дискретизации 4:2:0, т. е. количества элементов цветоразностных сигналов как по вертикали, так и по горизонтали в два раза меньше, чем элементов сигнала яр­кости. Развертка прогрессивная, с частотой кадров 29,97 Гц, при­чем допускается пропускать 1, 2 или 3 кадра между каждыми дву­мя передаваемыми кадрами, что позволяет снизить частоту кадров до 15, 10 и 7,5 Гц, соответственно. Квантование яркостного и цве­торазностных сигналов выполняется в соответствии с Рекоменда­цией 601.

Методы сжатия видеоинформации, используемые в Н.261, во многом схожи с применяемыми в MPEG-1 и MPEG-2. Основной единицей кодируемой видеоинформации является макроблок раз­мером 16x16 пикселов, содержащий четыре блока 8x8 элементов сигнала яркости и по одному блоку 8x8 элементов цветоразност­ных  сигналов.  33  макроблока  составляют группу  макроблоков.

Кадр формата CIF содержит 12 групп, а кадр формата QCIF - три группы макроблоков.

Каждый макроблок может кодироваться внутрикадровым или межкадровым методом. Рекомендация Н.261 не содержит правил выбора метода кодирования для макроблоков, оставляя этот вопрос на усмотрение разработчиков. Таким образом, можно произвольно задавать количество и положения кадров, целиком передаваемых с внутрикадровым кодированием, а для остальных кадров устанав­ливать наиболее подходящую стратегию выбора метода кодирова­ния макроблоков с различными свойствами.

Внутрикадровое кодирование макроблока, как и в JPEG и MPEG-1, MPEG-2, включает операции поблочного ДКП, квантова­ния коэффициентов ДКП, преобразования матрицы коэффициентов ДКП в их последовательность путем считывания в зигзагообразном порядке, кодирование полученной последовательности парами чи­сел (run-length coding) и кодирование кодами с переменной длиной кодовых слов (кодирование по Хаффмену). Степень сжатия регу­лируется выбором одного из 32 возможных значений шага кванто­вания, причем для коэффициентов С(0,0), показывающих постоян­ные составляющие сигналов, шаг квантования фиксирован.

Межкадровое кодирование включает предсказание кодируе­мого макроблока путем поиска соответствующей области в преды­дущем кадре, получение ошибки предсказания (разности действи­тельного и предсказанного макроблоков) и кодирование ошибки предсказания методом, аналогичным используемому при внутри-кадровом кодировании, но с другими параметрами квантования. Вектор движения, показывающий смещение соответствующей об­ласти в предыдущем кадре, по каждой координате определяется с точностью до одного пиксела в диапазоне -15...15 пикселов. Век­торы движения передаются в потоке данных. Отметим, что пред­сказание осуществляется только по предыдущему кадру, и В-кадры, имеющиеся в MPEG-1, MPEG-2, здесь отсутствуют.

Структура потока видеоданных на выходе кодера содержит заголовки кадров, заголовки групп макроблоков, заголовки макро­блоков и поблочно передаваемые в каждом макроблоке данные. Объединение кадров в группы не предусмотрено. В декодере поток Данных разделяется на кадры, группы макроблоков и макроблоки, каждый из которых декодируется аналогично тому, как это было описано для MPEG-1, MPEG-2.

Рекомендация Н.261 содержит также правила передачи коди­рованных данных по каналу связи, которые здесь не рассматрива­ются.

Рассмотрим пример, чтобы оценить возможности передачи изображений с использованием Н.261. Пусть нам надо передавать , изображение формата QCIF с частотой кадров 10 Гц. Такие пара­метры приемлемы для простой видеотелефонной связи. Скорость ч передачи двоичных символов до сжатия составляет 2970 кбит/с. Для   передачи   по   каналу   связи   с   пропускной   способностью  64 кбит/с необходимо сжатие в 46 раз. Такое сжатие приведет t к существенным искажениям изображения. Если же пропускная 1 способность канала связи 128 кбит/с, то необходимо сжатие в 23 раза, что вполне допустимо.                                                              

Рекомендация Н.263, принятая в 1996 г., является развитием Рекомендации Н.261 и по сравнению с последней содержит следующие основные усовершенствования [14]:

-  помимо изображений форматов CIF и QC1F могут кодиро­ваться и передаваться изображения форматов SQCIF, 4CIF и 16CIF;

-  векторы движения определяются с точностью до половины пиксела, и ограничения на величины смещений отсутствуют;

-  допускается использование В-кадров, при кодировании ко­торых для предсказания используются следующие за ними кадры;

-  используется более совершенный метод кодирования с пе­ременной длиной кодовых слов (арифметическое кодирование).

Имеются и другие отличия, которые здесь не рассматриваются.

Рекомендация Н.262, принятая в 1995 г., является существен­но более широкой, чем Н.261 и Н.263, и практически совпадает со стандартом MPEG-2 в части кодирования видеосигналов [13]. Ко­дируемые в соответствие с ней движущиеся изображения могут иметь как прогрессивную, так и чересстрочную развертки, количе­ства пикселов от 352x288 до 1920x1152, частоту кадров 30 Гц, а н верхних уровнях 60 Гц. Предусмотрены уровни и профили, возможна масштабируемость нескольких типов. Рекомендация Н.26 может использоваться не только для систем видеосвязи, но и дл передачи программ ТВ вещания по различным каналам связи.      

 

НЕКОТОРЫЕ МЕТОДЫ СЖАТИЯ ВИДЕОИНФОРМАЦИИ, ПРИМЕНЯЕМЫЕ В ВИДЕОСВЯЗИ И МУЛЬТИМЕДИА

 

Методы, краткие сведения о которых даны ниже, широко ис­пользуются, но ни один из них не является международным стан­дартом, утвержденным ISO, или рекомендацией ITU.

Метод Cell, предложенный компанией Sun Microsystems име­ет два варианта: CellA и CellB. В системах видеосвязи, где требу­ются компрессия и декомпрессия в реальном времени, использует­ся метод CellB, требующий меньшего объема вычислений и позво­ляющий использовать аппаратные акселераторы в графических платах ПК. Изображение делится на ячейки (cell) по 4x4 пикселов. Исходный объем информации в ячейке, если каждый пиксел пред­ставляется 24 битами, составляет 384 бита. В результате кодирова­ния ячейка представляется 32 битами (16 - распределение яркости и 16 - распределение цветности). То есть коэффициент сжатия со­ставляет 12:1. (Читателю рекомендуется проверить, какой коэффи­циент сжатия получится, если исходное изображение представлено не в формате RGB, а в формате 4:2:2 по рекомендации 601.)

Метод NV (Network Video), предложен подразделением PARC компании Xerox и часто используется в системах телеконфе­ренций, работающих в Интернет. Метод основан на выделении об­ластей изображения, в которых имеются значимые изменения, и передаче со сжатием только этих областей. Для сжатия исполь­зуются либо ДПФ, либо преобразование Хаара (см. § 3.3). Степень сжатия до 20:1.

Метод Indeo, разработанный фирмой Intel, основан на пред­сказании текущего кадра по предыдущему. Передача кадра проис­ходит только в том случае, если расчетные значения значимо отли­чаются от реальных. Сжатие осуществляется по методу FST (Fast Slant Transform - быстрое наклонное преобразование), в котором используются только алгебраические операции сложения и вычи­тания. Степень сжатия составляет 1,7:1.

 

НЕКОТОРЫЕ СТАНДАРТЫ СЖАТИЯ ЗВУКА ДЛЯ СИСТЕМ СВЯЗИ

 

Ниже кратко рассмотрены некоторые стандарты кодирования звуковых сигналов, используемые в системах компьютерной ви­деосвязи и других цифровых системах связи. Следует отметить, что если стандарты MPEG-1,2 наряду с методами сжатия изображений

содержат и методы сжатия звукового сопровождения, то рекомен­дации Н.261, 262, 263 касаются только изображений, а для сжатия звука в системах видеосвязи должны применяться методы, описан­ные в особых стандартах [18].

Рекомендация G.711 определяет метод передачи речи с по­мощью ИКМ. Верхняя граничная частота передаваемого сигнала ƒв = 3,4 кГц, частота дискретизации ƒд = 8 кГц, количество разрядов квантования пкв = 12. После квантования выполняется нелинейное преобразование цифрового сигнала (компандирование или ком­прессия), в результате которого шаг квантования при больших уровнях сигнала увеличивается. Передаточная характеристика этого преобразования по форме похожа на характеристику гамма-коррекции (см. рис. 2.14). В результате компрессии количество разрядов квантования уменьшается до 8. Более грубое квантование на больших уровнях громкости не создает заметных искажений звука.                                                                                              

Таким образом, скорость передачи двоичных символов дл» стандарта G.711 составляет 8 (бит) х 8 (кГц) = 64 кбит/с. В декоде­ре выполняется обратное нелинейное преобразование с восстанов­лением 12 бит на каждый отсчет, после чего с помощью ЦАП по­лучается аналоговый звуковой сигнал.

Рекомендации G.721 и G.726 определяют методы сжатия речи с помощью АДИКМ (см. § 3.5). Частота дискретизации и чис­ло разрядов квантования звукового сигнала такие же, как в реко­мендации G.711. Число разрядов квантования разностного сигнала (ошибки предсказания) равно 4. Параметры предсказателя и шаг квантования разностного сигнала (ошибки предсказания) автоматически регулируются в зависимости от текущего спектра и амплитуды входного сигнала. Скорость передачи двоичных символов равна 32 кбит/с.                                                                                      

Рекомендация G.722 направлена на повышение качества пе­редачи речи. Верхняя граничная частота сигнала ƒв = 7 кГц, частота дискретизации ƒд = 16 кГц, число разрядов квантования пкв=14. Кодирование включает выделение двух частотных поддиапазонов 50 Гц...4 кГц и 4 кГц...7 кГц и применение АДИКМ с числом раз­рядов квантования ошибки предсказания 6 в низкочастотном под­диапазоне и 2 в высокочастотном поддиапазоне. Результирующая скорость передачи двоичных символов равна 64 кбит/с.

Рекомендации G.728 и G.729 описывают методы сжатия сигналов речи с использованием кодирования с линейным предска­занием (LPC - Linear Predictive Coding). Эти методы основаны на модели голосового аппарата человека в виде линейного фильтра, на вход которого подается или квазипериодическая последователь­ность импульсов (при формировании гласных и некоторых соглас­ных звуков) или шум (при формировании шипящих, свистящих и некоторых других согласных звуков). Подробное описание этих методов выходит за рамки настоящего пособия. Отметим лишь, что разборчивая речь на выходе декодера может быть получена при скоростях передачи двоичных символов 4,8 кбит/с и даже 2,4 кбит/с.

 

СТАНДАРТ СЖАТИЯ ЗВУКОВОЙ ИНФОРМАЦИИ АС-3

 

Стандарт АС-3 (или Долби АС-3) предназначен для кодиро­вания высококачественного звукового сопровождения в цифровом телевидении и мультимедиа [19]. В частности, он используется в цифровой системе телевизионного вещания ATSC (см. § 6.1), принятой в США и ряде других стран. Стандарт АС-3 позволяет кодировать звуковые сигналы до пяти каналов и один дополни­тельный сигнал низкочастотных звуковых эффектов (принято обо­значение 5,1-канальный звук).

На вход кодера АС-3 (рис. 4.16,а) поступают кодируемые звуковые сигналы в цифровой форме с частотой дискретизации ƒд равной 48, 44,1 или 32 кГц и количеством битов на отсчет до 24. В каждом звуковом канале берутся перекрывающиеся блоки по 512 отсчетов, так что каждый отсчет присутствует в двух таких блоках. Затем данные каждого блока отсчетов в Блоке фильтров анализа преобразуются в частотную область с использованием мо­дифицированного ДКП (МДКП или MDCT). Возможны два вари­анта выполнения МДКП: длинный, когда преобразуются все 512 отсчетов, и короткий, когда раздельно преобразуются первые 256 и последние 256 отсчетов. Общая формула МДКП для обоих вариан­тов имеет вид

для 0 ≤ k < N12, где х(п) - отсчеты сигнала, С(k) - коэффициенты МДКП, N = 512, α- 0 для длинного варианта, N = 256 для короткого варианта, α = -1 для первого преобразования в коротком вари­анте, α= 1 для второго преобразования в коротком варианте. Из 512 получаемых коэффициентов МДКП в обоих вариантах остав­ляют 256, представляющие диапазон частот от 0 доƒд/2.

 

Каждый коэффициент МДКП далее представляется в виде mant*e-exp , где mant - мантисса, ехр - характеристика (exponent), записываемая с помощью 5-разрядного двоичного числа. 256 характеристик образуют огибающую спектра в пределах блока отсче­тов. Огибающая спектра кодируется с целью сжатия данных о ней. При выполнении этой операции используются кодирование разно­стей характеристик (ДИКМ) и три варианта (стратегии) объедине­ния этих разностей в группы и представления каждой такой группы одним числом. Потерь информации при этом не происходит.

Затем вычисляется распределение битов для квантования мантисс. При этом используется психоакустическая модель, учи­тывающая маскирование громкими звуками более тихих звуков на близких частотах. Полное число распределяемых битов зависит от заданной степени сжатия. Далее выполняется квантование мантисс, в результате которого мантисса каждого из 256 коэффициентов МДКП представляется числом двоичных разрядов, выделенных для нее при распределении битов. Для коэффициентов МДКП, соответ­ствующих частотам, на которых или нет звука, или этот звук пол­ностью замаскирован более громкими звуками на других частотах, вообще не выделяется битов. Именно квантование мантисс создает сжатие звуковой информации и, одновременно, создает потери час­ти этой информации.

Кодированная огибающая спектра и квантованные мантиссы упаковываются в кадр (АС-3 frame), структура которого показана на рис. 4.16,6. Кадр содержит кодированные данные о 256 отсчетах сигнала каждого из 6 звуковых каналов, т. е. всего о 1536 отсчетах. Кадр начинается с заголовка, содержащего данные для синхрони­зации (SI - synchronization information), позволяющие обнаружить начало кадра, и данные о параметрах кодирования (BSI - bit stream information). Далее идут шесть блоков данных АВ0-АВ5 (АВ -audio block), в которых передаются кодированная огибающая спек­тра, квантованные мантиссы и различная вспомогательная инфор­мация, необходимая для декодирования.

В конце кадра может быть поле дополнительных данных (Aux). Кадр завершается 16-битовым кодом контроля ошибки (CRC). Дополнительный код контроля может содержаться также в заголовке кадра. Поток данных состоит из следующих один за другим кадров. Декодирование может начинаться с любого кадра.

В декодере (рис.4.16,в) из потока данных выделяются от­дельные кадры, в каждом кадре проверяются контрольные коды с целью обнаружения ошибок. Если кадр принят правильно, то вы­полняется его декодирование. При этом по кодированной огибающей спектра вычисляется распределение битов, аналогично тому, как это делалось при кодировании. Затем производится деквантование мантисс. Значения характеристик определяются путем деко­дирования огибающей спектра. По мантиссам и  характеристиками восстанавливаются значения коэффициентов МДКП. Наконец в блоке фильтров синтеза выполняется обратное МДКП, в результате чего вычисляются значения отсчетов сигналов звуковых каналов.

Стандарт АС-3 позволяет объединять звуковые каналы, со­гласовывать источники звуковых сигналов и звуковоспроизводя­щую аппаратуру с разными количествами каналов, сжимать .дина­мический диапазон звука и оптимизировать настройку громкости и дает еще много возможностей для получения наилучшего качества звука при высокой степени сжатия.

В зависимости от параметров исходных звуковых сигналов и заданной степени сжатия скорость передачи двоичных символов в выходном потоке данных может быть от 32 до 640 кбит/с. Для 5,1-канального звука типичная скорость передачи 384 кбит/с. Если, например, скорость передачи без сжатия была: 6 каналов х 48 кГц х 18 битов = 5184 кбит/с, то степень сжатия составляет 13,5.

Поток данных с кодера АС-3 может быть в качестве элемен­тарного потока включен в состав транспортного потока MPEG-2. Поэтому стандарт АС-3 может использоваться в системах цифро­вого телевидения для сжатия звуковой информации вместо MPEG-2 Layer 3.

 

Контрольные вопросы

1.   В какой последовательности кодируются по стандарту JPEG блоки цветного изображения?

2.  Почему квантование коэффициентов ДКП создает менее заметные ис­кажения, чем квантование самого изображения?

3.  Каким образом в стандарте JPEG осуществляется управление степени сжатия?

4.  В чем состоит сущность кодирования с переменной длиной кодовых слов?

5.  Что означает термин "гибридное кодирование" применительно к стан­дартам MPEG-1, MPEG-2?

6.  Зачем перед кодированием по MPEG-1, MPEG-2 выполняется переста­новка кадров в GOP?

7.  Чем различаются кадровый и полевой режимы кодирования в MPEG-1, MPEG-2?

8. Почему для В-кадров достигается наибольшая степень сжатия?

9. Каково назначение буферного ЗУ в кодере MPEG-2?

10. Что такое масштабируемость?

11. Что такое уровни и профили MPEG-2?

12.  Что имеют общего и чем различаются уровни (Layers) кодирования звуковой информации в стандартах MPEG-1, MPEG-2?

13. В чем сущность адаптивного распределения битов?

14. Каково назначение психоакустической модели?

15.  Как выделяются данные разных ТВ-программ из транспортного пото­ка MPEG-2?

16. Что такое видео- и аудиообъекты MPEG-4?

17.  Какие методы используются в MPEG-4 для передачи изображений человеческих лиц?

18. Опишите процесс декодирования потока данных MPEG-4.

19. Где могут применяться Рекомендации Н.261 и Н.263?

20.  Какие методы кодирования применяются для сжатия речевых сигна­лов в системах видеосвязи?

21.  В чем состоят сходство и различие стандартов Долби АС-3 и MPEG-2 Audio Layer 3?

 

5.  ПЕРЕДАЧА СИГНАЛОВ  ЦИФРОВОГО  ТЕЛЕВИДЕНИЯ ПО КАНАЛАМ СВЯЗИ

 

5.1. Основные положения

 

Главными требованиями к средствам передачи сигналов цифрового телевидения по каналам связи являются использование существующих каналов телевизионного вещания и обеспечение при этом высокой помехоустойчивости.

Невыполнение первого их этих требований привело бы к не­обходимости менять сложившееся распределение частотных диа­пазонов по каналам, заменять передающие и приемные антенны, переходить к использованию более широкополосных передатчи­ков и радиочастотных трактов ТВ приемников. Как было показано в предыдущей главе, скорость передачи двоичных символов на выходе кодера MPEG-2 основного уровня основного профиля дос­тигает 15 Мбит/с. Максимальная эффективность использования полосы частот канала связи при передаче двоичного сигнала с простой амплитудной манипуляцией, когда амплитуда несущей может принимать два значения, составляет 1 бит/с/Гц. Следова­тельно, для передачи сигнала цифрового телевидения необходима полоса частот до 15 МГц, что превышает ширину полосы частот стандартных каналов телевизионного вещания (8 МГц в Европе и 6 МГц в США и Японии).

Поэтому для передачи сигналов цифрового телевидения, особенно если надо передавать сигналы нескольких программ обычной четкости в одном канале или сигнал ТВЧ, необходимо увеличивать эффективность использования полосы частот канала связи, что достигается применением более сложных методов мо­дуляции несущей.

Рассмотрим вопрос о помехоустойчивости [20]. Как извест­но, цифровая информация передается в виде последовательности двоичных символов - единиц и нулей. Из двоичных символов со­стоят кодовые комбинации, каждая из которых содержит инфор­мацию о букве, цифре или, в случае передачи телевизионного сиг­нала, о значении одного отсчета этого сигнала.

В результате действия шумов и помех отдельные двоичные символы могут быть приняты с ошибкой. Интенсивность ошибок характеризуется их относительной частотой ƒош [ош/дв.символ], показывающей вероятность того, что принятый отдельный двоич­ный символ ошибочен. В англоязычной технической литературе эта величина обычно называется BER (Bit Error Rate - частота ошибок на бит).

Ошибки могут быть одиночные и пакетные (групповые). Одиночные ошибки не зависят друг от друга. Пакетные ошибки искажают сразу несколько соседних двоичных символов по опре­деленному закону. Например, вследствие действия достаточно продолжительной импульсной помехи несколько идущих подряд двоичных символов становятся равными 0 или 1.

Основные причины возникновения ошибок:

- действие аддитивного шума, в основном проявляющееся во входных каскадах приемной аппаратуры;

-   индустриальные  и   атмосферные  помехи,   возникающие в результате различных электрических разрядов;

-  помехи, создаваемые радиопередатчиками, работающими в этой же полосе частот в соседних местностях;

-  многолучевое распространение радиоволн, возникающее из-за отражений от зданий и сооружений и от поверхности земли.

Общеизвестными способами повышения помехоустойчиво­сти являются увеличение мощности передатчика, увеличение уси­ления антенны, применение в приемниках малошумящих усилите­лей и охлаждение входного каскада приемника, рациональное планирование использования радиоканалов на смежных террито­риях, помехоустойчивое кодирование. Однако эти методы имеют ограничения, связанные с реальными техническими возможностя­ми, конечной шириной доступного диапазона длин волн, стоимо­стью аппаратуры и т. д. В случае передачи цифровых сигналов значительное повышение помехоустойчивости может быть дос­тигнуто путем применения помехоустойчивого кодирования, ко­торое рассматривается в следующем разделе.

Для уменьшения влияния пакетных ошибок применяется скремблирование (перемежение или перемешивание). Данные, пе­ред передачей по каналу связи, переставляются в заданном поряд­ке, а в приемной части восстанавливается исходный порядок, т. е. выполняется дескремблирование. При этом пакетная ошибка, воз-никшая в канале связи, например, в результате действия индустри­альной помехи, превращается в набор рассредоточенных во вре­мени одиночных ошибок, которые проще обнаруживаются и ис­правляются с помощью помехоустойчивого кодирования.

Пример скремблирования и дескремблирования показан на рис. 5.1. Исходный цифровой сигнал представляет собой последо­вательность 4-разрядных двоичных слов, передаваемых бит за би­том (рис. 5.1,а). Скремблирование выполняется в пределах каждых четырех слов, т. е. в пределах отрезка цифрового сигнала, содер­жащего 16 бит. Числа показывают номер бита в этом отрезке. В результате скремблирования биты переставляются (рис. 5.1,6). Биты, искаженные действием пакетной ошибки, отмечены звез­дочками. В результате дескремблирования (рис. 5.1,в) восстанав­ливается исходный порядок битов. Искаженные биты рассредотачиваются. Как будет показано ниже, одиночные ошибки значи­тельно легче исправляются с помощью корректирующих кодов.

Скремблирование используется и для шифровки передавае­мых данных, так как восстановить правильный порядок следова­ния битов при дескремблировании можно только обладая инфор­мацией о правилах перестановки битов.

Рассмотрим теперь общий вопрос о возможности одновре­менного выполнения требований эффективного использования полосы частот канала связи и обеспечения помехоустойчивости в определенной мере. Эти требования взаимно противоположны. Пусть, например, для повышения эффективности использования полосы частот в каждый момент времени сигнал в канале связи будет иметь не 2, а 4 или более возможных значений. В случае применения AM это достигается наличием соответствующего ко-

личества уровней амплитуды несущей, при ЧМ должно быть соот­ветствующее количество возможных значений частоты, при ис­пользовании ФМ - возможных значений фазы сигнала и т. д. В общем случае можно сказать, что должен быть расширен алфа­вит символов в канале связи.

Очевидно, что при этом ухудшится помехоустойчивость системы, так как приемник должен будет одновременно различать не 2, а 4 или более значений сигнала. Чтобы обеспечить уверенное различение требуемого количества уровней сигнала необходимо увеличивать отношение сигнал/шум в канале связи, т. е. наращи­вать мощность передатчика. Это соответствует основным положе­ниям теории связи - для увеличения пропускной способности ка­нала связи при фиксированной ширине полосы частот необходимо повышать отношение сигнал/шум.

 

5.2. Помехоустойчивое кодирование

 

Помехоустойчивое кодирование передаваемой информации позволяет в приемной части системы обнаруживать и исправлять ошибки. Коды, применяемые при помехоустойчивом кодировании, называются корректирующими кодами или кодами, исправляю­щими ошибки [20].

Если применяемый способ кодирования позволяет обнару­жить ошибочные кодовые комбинации, то в случае приема изо­бражения можно заменить принятый с ошибкой элемент изобра­жения на предыдущий принятый элемент или на соответствующий элемент предыдущей строки или предыдущего кадра. При этом заметность искажений на экране телевизионного приемника суще­ственно уменьшается. Такой способ называется маскировкой ошибки.

Более совершенные корректирующие коды позволяют не только обнаруживать, но и исправлять ошибки. Как правило, кор­ректирующий код может исправлять меньше ошибок, чем обнару­живать. Число ошибок, которые корректирующий код может ис­править в определенном интервале последовательности двоичных символов, например, в одной кодовой комбинации, называется ис­правляющей способностью кода.

Основной принцип построения корректирующих кодов за­ключается в том, что в каждую передаваемую кодовую комбинацию, содержащую к информационных двоичных символов, вводят р дополнительных двоичных символов. В результате получается новая кодовая комбинация, содержащая п = k + р двоичных симво­лов. Такой код часто получает обозначение (п, к). Избыточность этого кода определяется как

Например, кодовое расстояние между кодовыми комбина­циями 0001 и 0011 равно 1.

Если разрешенные кодовые комбинации выбраны таким об­разом, что при изменении любого двоичного символа разрешенная кодовая комбинация переходит в запрещенную, то корректирую­щий код позволяет обнаруживать одиночные ошибки в отдельных кодовых комбинациях.

Одиночная ошибка переводит исходную кодовую комбина­цию в кодовую комбинацию, отстоящую от нее на d = 1. Следова­тельно, для обнаружения одиночных ошибок необходимо, чтобы кодовое расстояние между любыми двумя разрешенными кодовы­ми комбинациями корректирующего кода было не менее 2. Для обнаружения г\ ошибок в кодовой комбинации необходимо, чтобы кодовое расстояние между двумя разрешенными кодовыми ком­бинациями удовлетворяло неравенству

Один из самых простых и известных примеров помехо­устойчивого кодирования - проверка на четность. В каждую кодо­вую комбинацию вводится один дополнительный (контрольный или проверочный бит) двоичный символ хр, равный 1, если сумма

единиц в исходной кодовой комбинации равна нечетному числу, и равный 0 в противоположном случае. Это правило выражается соотношением

где x1...хk - двоичные символы исходной кодовой комбинации;  - символ операции суммирования по модулю 2.

Если в приемной части системы один из двоичных симво­лов кодовой комбинации принят с ошибкой, значение контроль­ного бита не будет удовлетворять указанному правилу. Это несо­ответствие будет обнаружено специальной схемой и явится при­знаком того, что произошла ошибка. Таким образом, проверка на четность позволяет обнаруживать одиночные ошибки, но не по­зволяет их исправлять. Данный метод широко применяется в вы­числительной технике, где наличие хотя бы одного ошибочного Зита недопустимо.

Рассмотрим пример кодирования с проверкой на четность для k = 8. Ниже приведены две допустимых кодовых комбинации, i которых последний бит, отделенный вертикальной чертой, явля­йся проверочным: 0000000111; 00000011|0. Расстояние Хэмминга между этими кодовыми комбинациями равно 2. Кодовая комбина­ция 0000001111, расстояние Хэмминга от которой до двух преды­дущих равно 1, является запрещенной, и ее появление в приемнике свидетельствует об ошибке.

Для исправления одиночных ошибок необходимо, чтобы ко­довое расстояние между любыми двумя разрешенными кодовыми комбинациями корректирующего кода было не менее 3. В этом случае принятая запрещенная кодовая комбинация заменяется ближайшей к ней разрешенной кодовой комбинацией. Так как ошибки одиночные, то переданная разрешенная кодовая комбина­ция отстоит от принятой запрещенной кодовой комбинации на 1, а остальные разрешенные кодовые комбинации - не менее чем на 2. В этом случае ошибка надежно исправляется.

В общем случае для коррекции r2 ошибок в кодовой комби­нации должно выполняться неравенство

Для увеличения кодового расстояния между разрешенными кодовыми комбинациями необходимо увеличивать число контрольных символов в передаваемых кодовых комбинациях. Из­вестно соотношение

В телевизионных системах большое значение имеет возмож­ность коррекции пакетных ошибок, искажающих сразу несколько соседних двоичных символов. Кроме того, при выборе кода для системы цифрового телевидения необходимо учитывать слож­ность построения декодера, так как декодер должен быть в каждом телевизионном приемнике.

В большинстве разработок систем цифрового телевидения для обеспечения помехоустойчивой передачи телевизионных сиг­налов по каналу связи используются коды Рида-Соломона (Reed-Solomon). Чтобы получить некоторое представление об этих кодах посмотрим, какое место они занимают в классификации корректи­рующих кодов (рис. 5.2).

Корректирующие коды разделяются на блочные и сверточные (непрерывные, рекуррентные). Блочные коды основаны на пе­рекодировании исходной кодовой комбинации (блока), содержа­щей к информационных символов, в передаваемую кодовую ком­бинацию, содержащую п > k символов. Дополнительные р = п -k символов зависят только от к символов исходной кодовой комби­нации. Следовательно, кодирование и декодирование осуществ­ляются всегда в пределах одной кодовой комбинации (блока)-

В противоположность этому в сверточных кодах кодирование и декодирование осуществляются непрерывно над последо­вательностью двоичных символов.

Блочные коды бывают разделимые и неразделимые. В разде­лимых кодах можно в каждой кодовой комбинации указать, какие символы являются информационными, а какие - проверочными. В неразделимых кодах такая возможность отсутствует.

Следующая ступень классификации - систематические ко­ды. Они отличаются тем, что в них проверочные символы форми­руются как линейные комбинации информационных символов. То есть для каждого проверочного символа % можно написать соот­ношение

Соотношение (5.1) для формирования контрольного бита проверки на четность является частным случаем (5.6). Коды Хэмминга также относятся к блочным разделимым систематическим кодам.

Перейдем к знакомству с циклическими кодами. Свойства этих кодов позволяют в достаточно компактной и ясной форме изложить правила как получения самого кода, так и построения декодера для него.                                                                            

В первую очередь введем запись кодовой комбинации или, 1 как часто называют ее в литературе по корректирующим кодам, кодового вектора в виде полинома. Пусть имеется кодовая комби-1 нация a0a1a2...an-1, где a0- младший разряд кода, а - старший разряд кода. Соответствующий ей полином имеет вид                         

 

Над полиномами, представляющими кодовые комбинации, определена математическая  операция умножения.  Особенное этой операции по сравнению с общепринятой заключается в том что коэффициенты при х всех степеней суммируются по модулю а показатели степени х при перемножении также суммируются г

модулю п.

Далее введем понятие производящего полинома. Производящим полиномом порядка (п-k) может быть полином со старшей степенью х равной (п-k), на который без остатка делится двучлен (1+хn). Разрешенные кодовые комбинации получаются перемно­жением полиномов порядка k - 1, выражающих исходные кодовые комбинации, на производящий полином.                                         

Циклические коды имеют следующее основное свойство. Если кодовая комбинация является разрешенной, то получаемая из нее путем циклического сдвига кодовая комбинация также является разрешенной в данном коде. При запи­си в виде полиномов операция циклического сдвига сводится к умножению исходного полинома на х с учетом приведенных ра­нее правил выполнения операции умножения.

Циклический код с производящим полиномом g{x) строится следующим образом.

1. Берутся полиномы

2.  Кодовые комбинации, соответствующие этим полиномам, записывают в виде строк матрицы G, называемой производящей матрицей.

3.   Формируется набор разрешенных кодовых комбинаций кода. В него входит нулевая кодовая комбинация, к кодовых ком­бинаций, указанных в п.1, а также суммы их всевозможных сочетаний. При этом каждая строка производящей матрицы может вхо­дить в сумму не более одного раза. Суммирование осуществляется поразрядно, причем каждый разряд суммируется по модулю 2. Об­щее число полученных таким образом разрешенных кодовых комбинаций равно 2 , что соответствует числу информационных раз­рядов кода.

Для построения декодера в первую очередь получают произ­водящий полином h(x) порядка к для построения исправляющей матрицы Н.

 

 

При использовании циклических кодов кодирующие и деко­дирующие устройства можно строить в виде сдвиговых регистров с обратными связями через сумматоры по модулю 2.

Различные виды циклических кодов получаются с помощью различных производящих полиномов. Существует развитая мате­матическая теория этого вопроса. Среди большого количества циклических кодов к числу наиболее эффективных и широко ис­пользуемых относятся коды Бозе-Чоудхури-Хоквингема (ВСН-коды по первым буквам фамилий Bose, Chaudhuri, Hockwinham, или в русскоязычной записи БЧХ-коды), обладающие следующим свойством: для любых s и q <(2S -1)/2 существует циклический код длиной п = 2s - 1, исправляющий все возможные комбинациииз q или менее ошибок и содержащий не более sq проверочных символов. Например, БЧХ-код (63, 44), используемый в системе спутникового цифрового радиовещания, позволяет исправить 2 или 3 ошибки, обнаружить 4 или 5 ошибок на каждый блок из 63 символов. Избыточность такого кода равна R = (63 - 44)/63 = 0,33.

Одним из видов ВСН-кодов являются коды Рида-Соломона. В простейшем случае производящий полином этих кодов имеет вил

Коды Рида-Соломона используются, как правили, вместе с  каким-либо простым корректирующим кодом, выходные кодовые комбинации которого являются элементами для кода Рида-Соломона. Пусть на входе используется простой корректирующий код с 5-разрядными кодовыми комбинациями, исправляющий ошибки с кратностью не более t. Тогда в выходном коде будут получаться кодовые комбинации длиной п = 5(2 -1) символов, из которых 2ts будут проверочными. Такой код будет исправлять па­кетные ошибки длиной до s(t- 1) + 1 символов. Способность эф­фективно исправлять пакетные ошибки является одним из главных достоинств кодов Рида-Соломона, обуславливающих их широкое применение в современной технике.

В Европейском стандарте цифрового телевидения DVB (см. § 6.1) используется код Рида-Соломона (внешнее кодирование), записываемый как (204, 188, 8), где 188 - число байтов в пакете транспортного потока MPEG-2, 204 - число байтов в пакете после добавления проверочных символов, 8 - минимальное кодовое рас­стояние между допустимыми кодовыми комбинациями.

Эффективность действия корректирующего кода оценивает­ся по формуле

- отношения этих величин при использовании корректирующего кода и без него, при которых получаются одинаковые частоты ошибок. Коэффициент Ккк показывает, на сколько использование корректирующего кода позволяет ухудшить отношение сиг­нал/шум в канале связи с сохранением частоты ошибок на преж­нем уровне.

Значение Ккк обычно находится в интервале 3... 7 дБ, причем оно возрастает при уменьшении частоты ошибок, при которой производится оценка в соответствии с (5.12).

Другой широко используемый в цифровом телевидении и других цифровых системах передачи информации класс кодов -коды с решетчатой структурой (trellis code) [21]. Эти коды отно­сятся к сверточным и преобразуют входную бесконечную после­довательность двоичных символов в выходную бесконечную по­следовательность двоичных символов, в которой на каждый сим­вол входной последовательности приходится более одного символа. Увеличение числа передаваемых двоичных символов при использовании сверточных кодов характеризуется относительной скоростью

Пример формирования кода такого типа приведен на рис. 5.3. Каждый двоичный символ входной последовательности пре­образуется в пару двоичных символов выходной последовательно­сти, определяемую двоичным символом входной последователь­ности и текущим состоянием кодирующего устройства. Таких со­стояний может быть четыре: 00, 01, 10 и 11. Каждому состоянию соответствует горизонтальный ряд узлов на диаграмме. Из каждо­го узла, соответствующего текущему состоянию, выходят две вет­ви. Верхняя (на рисунке) ветвь соответствует двоичному символу 0 входной последовательности, а нижняя ветвь - двоичному сим­волу 1. Пара цифр у каждой ветви показывает пару двоичных сим­волов выходной последовательности, формируемых при данном переходе кодирующего устройства из одного состояния в другое. Полученная структура переходов кодирующего устройства обра­зует решетку, что и объясняет название этого класса кодов.

Для декодирования решетчатых кодов чаще всего применя­ется алгоритм Витерби, который позволяет из множества возмож­ных путей, приводящих к последнему декодируемому символу принятой последовательности, выбрать относительно небольшое число путей, являющихся наиболее правдоподобными, и опреде­лить правильное значение символа исходной последовательности.

В цифровом телевидении решетчатые коды применяются для помехоустойчивого кодирования передаваемых данных в ка­нале связи после кодирования с применением кодов Рида-Соломона (внутреннее кодирование).

 

5.3.   Методы   модуляции,   применяемые  при   передаче сигналов цифрового телевидения по радиоканалу

 

Главная особенность модуляции несущей цифровыми сигна­лами заключается в том, что модулируемый параметр несущей может принимать в результате модуляции ряд дискретных значе­ний. Такую модуляцию часто называют манипуляцией.

Амплитудная манипуляция (АМн) заключается в дискретном изменении уровня амплитуды несущей. В простейшем случае од­ному уровню сигнала может соответствовать наличие несущей, а другому - отсутствие. Получение помехоустойчивой системы с АМн при количестве значений сигнала более 2 сопряжено с трудностями. Кроме того, при этом получаются значительные перепады излучаемой мощности.

Частотная манипуляция (ЧМн) осуществляется путем дис­кретного изменения частоты несущей при постоянной ее амплитуде.

Фазовая манипуляция (ФМн) заключается в дискретном из­менении фазы несущей. В простейшем случае несущая может иметь два значения фазы - 0 и 180°. В приемнике может осущест­вляться как когерентное детектирование, требующее фазовой син­хронизации приемника с передатчиком, так и более простое неко­герентное детектирование. В последнем случае часто применяют относительную фазовую манипуляцию, при которой фаза несу­щей для каждого принятого символа сравнивается не с некоторой абсолютной начальной фазой, а с фазой несущей для предыдущего принятого символа.

Для повышения эффективности использования полосы час­тот канала связи применяется многопозиционная ФМн [22]. При­мер соответствия фазы несущей передаваемому трехразрядному двоичному коду для восьмипозиционной ФМн приведен на рис. 5.4. Сдвиг между дискретными значениями фазы несущей равен 450 . Эффективность использования полосы частот в такой системе повышается в три раза по сравнению с простой двухпозиционной ФМн, так как на несущей одновременно передаются три двоичных символа.

Следующий вид модуляции, часто применяемый для переда­чи цифровых сигналов - многопозиционная квадратурная ампли­тудная манипуляция (КАМн). Как известно, квадратурная ампли­тудная модуляция заключается в одновременной амплитудной мо­дуляции двумя сигналами u(inphase) и uQ (quadrature) двух квадратурных составляющих несущей с частотой ω0 и получении суммарного сигнала:

Для демодуляции используется синхронное детектирование, состоящее в умножении сигнала u(t) на cos ω0tи на sin ω0tс последующим подавлением высокочастотных составляющих фильтром НЧ. В результате выделяются, соответственно, uI(t) и uQ(t).

Сама  по  себе квадратурная  амплитудная  модуляция  уже обеспечивает увеличение эффективности использования полосы частот в два раза, так как на одной несущей частоте одновременно передаются два сигнала. В случае КАМн уровни каждой квадратурной составляющей несущей изменяются дискретно. На рис. 5.5; показана 4-позиционная КАМн, при которой каждая квадратурная составляющая может иметь два возможных уровня. В случае, no-i казанном на рис. 5.5,а, каждая составляющая может или отсутст­вовать, или присутствовать с заданной амплитудой. В случае, при­веденном на рис. 5.5,6, каждая составляющая может быть в фазе, что соответствует уровню +0,5, или в противофазе, что соответст­вует уровню -0,5. Второй вариант предпочтительнее, так как в нем обеспечивается меньшее отношение пиковой мощности несущей к ее средней мощности.

Если каждая квадратурная составляющая может иметь четы­ре уровня, что соответствует двум битам, то получается 16-позиционная КАМн, диаграмма возможных комбинаций сигна­лов I и Q для которой приведена на рис. 5.6. Такая модуляция дает выигрыш в эффективности использования полосы частот в четыре раза, так как одновременно передаются 4 бита. Применяются так­же 64-позиционная и 256-позиционная КАМн, при использование которых одновременно передаются 6 и 8 битов, соответственно.

Если дискретно модулировать не амплитуду, а фазу каждой из двух квадратурных составляющих, получим квадратурную фа­зовую манипуляцию (КФМн). Сигнал, получаемый в этом случае, может быть представлен соотношением

где Өс, ӨS- фазы квадратурных составляющих; Ө0- фаза результи­рующего сигнала. В табл. 5.1 приведены значения фазы результи­рующего сигнала в случае, когда квадратурные составляющие мо­дулируются по фазе двухуровневыми сигналами соответственно d1 и d2, имеющими уровни 1 и -1.

В моменты, когда меняются фазы обеих квадратурных составляющих, фаза Ө0 может меняться скачком на 180 . Это приво­дит к возникновению паразитной амплитудной модуляции при прохождении сигнала с КФМн через частотно-зависимые цепи. Для устранения этого нежелательного эффекта используют квад­ратурно-фазовую манипуляцию со сдвигом (КФМнС). Сущность ее заключается в том, что фазы двух квадратурных составляющих изменяются в разные моменты времени, и возможность скачка фазы суммарного сигнала на 180 исключается.

Один из современных методов передачи цифровых сигналов по радиоканалам — ортогональное частотное мультиплексирование[23]. В англоязычной технической литературе такая модуляция; называется OFDM (Orthogonal Frequency Division Multiplex). Сущность этого метода поясняется рис. 5.7.                                            I

В стандартном канале телевизионного вещания, имеющем ширину полосы частот ΔFk выделяют N несущих частот, отстоя­щих друг от друга на равные частотные интервалы Δƒ. Числа у оси частот показывают номера несущих от 0 до N-1. Общий поток пе­редаваемых цифровых данных, имеющий скорость передачи дво­ичных символов Qo, разделяют на N параллельных подпотоков, каждый из которых имеет скорость передачи двоичных символов Q1 = Qo/N.

Каждый подпоток передается на своей несущей, например, с использованием КАМн. Таким образом, в одном канале телеви­зионного вещания получается N узкополосных подканалов. Коли­чество несущих в соответствии со стандартом DVB-T (§ 6.1) мо­жет быть равно 6817 (Δƒ=1116 Гц) или 1705 (Δƒ=4464 Гц).

Модуляция и демодуляция выполняются с помощью ДПФ. Выбор частотных интервалов между несущими осуществляется так, чтобы соседние несущие колебания были ортогональны на отрезке времени, в течении которого передается один символ. Это позволяет избежать взаимного влияния соседних подканалов.

Данный метод передачи имеет следующие достоинства:

-  равномерное распределение энергии по полосе частот ка­нала связи;

-  возможность передавать наиболее важную часть информа­ции (синхронизацию, НЧ-составляющие сигнала яркости) на тех участках полосы частот, где меньше всего уровень помех от со­седних каналов, а области полосы частот канала, соответствующие несущим изображения и звука обычного телевизионного вещания вообще не использовать;

-  так как каждый из подканалов является узкополосным, то уменьшается влияние отраженных сигналов при многолучевом приеме.

Последнее свойство особенно важно, так как многолучевой прием создает значительные сложности для цифрового телевизи­онного вещания в городах. При использовании OFDM длительно­сти интервалов времени, в течении которых передаются отдельные символы, увеличиваются и становятся больше, чем времена за­держек отраженных сигналов, благодаря чему обеспечивается без­ошибочный прием.

Кроме того, для исключения влияния отраженных сигналов вводятся защитные интервалы. На рис. 5.8,а показаны отрезки времени, в течении которых на модулятор одной из несущих по­ступают символы передаваемого подпотока данных SI, S2, S3 и т. д. (В зависимости от используемого метода модуляции несу­щих количество битов в символе может быть различным/) Перед началом передачи символа S2 формируется защитный интервал Δ1 (рис. 5.8,6), в течении которого на входе демодулятора в приемни­ке еще могут присутствовать отраженные сигналы, содержащие предыдущий символ S1 (рис. 5.8,в). Затем в течении интервала времени Тр2 передается символ S2. Аналогично формируется за­щитный интервал Δ2 перед символом S3 и т.д.

В современных системах передачи цифровых сигналов в том числе в системах цифрового телевидения, при модуляции несущей осуществляют дополнительное кодирование информации, например, с использованием решетчатых кодов с целью повышения помехоустойчивости. При этом число возможных со стояний несущей после модуляции превышает число символов которые должны быть переданы. То есть вводится дополнительна избыточность, обеспечивающая повышение помехоустойчивости Такую модуляцию, совмещенную с кодированием, называют кодированной модуляцией (Coded modulation). В частности, сочетание помехоустойчивого канального кодирования с OFDM называют COFDM (Coded Orthogonal Frequency Division Multiplex).

Таким образом, при передаче сигналов цифровой систем телевидения по радиочастотным каналам связи используются две ступени помехоустойчивого кодирования. На первой ступени, называемой внешней, осуществляется кодирование цифровой ин формации с помощью кодов Рида-Соломона, как это было описай в предыдущем разделе. На второй ступени, называемой внутренней, используется канальное кодирование, совмещенное с модуляцией. В результате достигается требуемая помехоустойчивость.

 

6. Реализация цифровых телевизионных систем

6.1. Европейский стандарт цифрового телевидения DVB

 

Работы по проекту DVB (Digital Video Broadcasting - Циф­ровое видеовещание) начались в 1993 г. В них принимает участие более 200 организаций и фирм многих стран Европы. В результате в 1994 г. были выработаны основные положения стандарта DVB-C (С - Cable, кабель) для кабельного телевизионного вещания и стандарта DVB-S (S - Sattelite - спутник) для спутникового теле­визионного вещания. Работа над стандартом наземного (т. е. обычного, эфирного) телевизионного вещания DVB-T (Terrestrial -наземный) была закончена позже, в 1996 г., так как в этом виде вещания внедрение цифрового телевидения столкнулось с наибо­лее серьезными сложностями [11].

В основе стандартов DVB лежит стандарт кодирования дви­жущихся изображений и звукового сопровождения MPEG-2, рас­смотренный в § 4.2. В стандартах DVB помимо методов кодирова­ния и параметров транспортного потока, описанных в MPEG-2, определены также методы помехоустойчивого кодирования, ка­нального кодирования, модуляции несущих частот, передачи до­полнительной информации, защиты информации от несанкциони­рованного доступа и другие методы, необходимые для организа­ции цифрового телевизионного вещания [24].

Параметры кодирования движущихся изображений, преду­смотренные в DVB, совпадают с приведенными в табл. 4.4. В на­стоящее время, как правило, используется основной профиль без масштабирования.

Синтаксис транспортного потока DVB расширен по сравне­нию с транспортным потоком MPEG-2. Предусмотрены новые ти­пы пакетов, имеющие свои особые идентификаторы (PID). Среди них пакеты SI (Service Information - служебная информация), в которых передаются сведения об источнике ТВ-программы, в том тесле параметры канала связи (частота, скорость передачи данных, координаты спутника и т.д.), классификация содержания, програмными, телефонные номера для обратной связи с телестудией и т. п.

В DVB предусмотрена передача пакетов, содержащих данные обычного Телетекста, который уже много лет широко используется в европейских странах. Имеются возможности передач! субтитров с переводом, что весьма актуально для многоязычно! Европы, а также графических элементов (логотипов ТВ каналов i

т. п.).

Стандарты DVB обеспечивают условный доступ (Conditional Access - СА) к передаваемым телевизионным программам, что позволяет организовывать платное ТВ-вещание. Система условно­го доступа включает механизм скремблирования ТВ-программ, подсистему    хранения    данных    о    пользователях    (Subscribe Management System - SMS), и подсистему шифровки и пересылке ключей, обеспечивающих правильное дескремблирование принимаемых программ, пользователям, внесшим соответствующую оп­лату (Subscriber Authorization System - SAS). При этом стандарти­зирован только общий алгоритм скремблирования (причем эта ин­формация недоступна для простых пользователей),  а для SM! и SAS определены общие принципы построения. Конкретная peaлизация системы условного доступа определяется фирмами, ведущими ТВ-вещание и производящими аппаратуру. Одним из реко мендованных  методов  шифровки  ключей  является  SimulCrypi Возможно  одновременное  использование  нескольких  способов шифровки (MultiCrypt).

Стандарты DVB допускают возможность вводить дополни тельные, не описанные в стандарте, пакеты данных с особым: идентификаторами. В этих пакетах ведущая вещание телевизион ная компания может передавать ключи к шифрам условного доступа, так называемые навигаторы или гиды (EPG - Electron Program Guide), т. е. системы меню и таблиц для поиска нужно: передачи и программирования времени включения телевизионном приемника для просмотра или записи выбранной передачи, и другую информацию. Форматы данных в таких пакетах определяются телевизионными компаниями. Поэтому для приема ТВ-программ разных компаний могут понадобиться разные декодеры.

Для многих видов сервиса, реализуемых в рамках стандартов DVB, необходим интерактивный режим работы, т. е. возможность взаимодействия между пользователем и поставщиком ТВ-программы. Указанное взаимодействие может заключаться в посылке команд по телефонному каналу, в обмене данными через Интернет и т. д. С этой целью в стандартах DVB описаны:

а)  независящие от вида используемой сети протоколы обме­на данными;

б)   средства обеспечения интерактивности для некоторых конкретных видов сетей (обычная телефонная сеть, сеть ISDN, сеть кабельного ТВ).

В будущем предполагается введение в DVB стандарта, опре­деляющего построение цифровой системы сбора новостей через спутники (Digital Satellite News Gathering - D-SNG), которая должна включать средства двустороннего обмена данными.

В соответствии со стандартами DVB для всех видов ТВ-вещания, сформированный транспортный поток данных подвер­гается скремблированию для устранения длинных серий 0 или 1 в транспортных пакетах MPEG-2, за счет чего обеспечивается устойчивая работа системы тактовой синхронизации приемного устройства. При этом, чтобы не нарушить в демодуляторе цикло­вую синхронизацию, стартовые синхрогруппы транспортных па­кетов скремблированию не подвергаются. Одновременно скремблирование обеспечивает защиту данных от несанкциони­рованного доступа.

Далее поток данных поступает на кодер Рида-Соломона (внешнее кодирование), также общий для всех видов ТВ-вещания. Эта ступень кодирования транспортных пакетов MPEG-2 охваты­вает и стартовые синхрогруппы пакетов, и в результате длитель­ность транспортного пакета возрастает с 188 до 204 байтов.

Затем данные, в которые добавлены контрольные биты, по­ступают на блоки канального кодирования (внутреннее кодирова­ние) и модуляции несущей частоты. Выполнение этих операций в разных видах ТВ-вещания рассматривается далее.

 

КАБЕЛЬНОЕ И СПУТНИКОВОЕ ТВ-ВЕЩАНИЕ

 

Кабельные каналы телевизионного вещания находятся в наиболее благоприятных условиях с точки зрения обеспечения помехоустойчивости, так как они защищены от действия атмо­сферных и индустриальных помех, и в них имеется возможность поддерживать достаточно высокое значение отношения сиг­нал/шум (не менее 30 дБ) за счет использования промежуточных усилителей. Основная задача в кабельном телевизионном вещании

— обеспечить наиболее эффективное использование полосы частот, чтобы передавать по имеющимся кабельным сетям максимальное количество телевизионных программ.

С этой целью в кабельных сетях в соответствии со стандар­том DVB используется многопозиционная квадратурная ампли­тудная манипуляция (КАМн), принципы которой были изложены в § 5.3. Для канального кодирования используются сверточные коды. В настоящее время применяются 16-, 32- и 64-позиционная КАМн. В перспективе предполагается применение 128- и 256-позиционной КАМн. Скорости передачи двоичных символов, по­лучаемые при разных количествах позиций КАМн, приведены в табл. 6.1. Полная скорость передачи оказывается выше скорости передачи полезных данных за счет введения дополнительных сим­волов при помехоустойчивом кодировании.

Сопоставляя параметры в последнем столбце табл. 6.1 со скоростями передачи двоичных символов, необходимыми для пе­редачи телевизионных программ с разными уровнями качества изображения (см. § 4.2), можно оценить, сколько программ с тем или иным качеством изображения можно передать в одном канале кабельного телевидения.

Для спутниковых каналов телевизионного вещания характе­рен низкий уровень индустриальных помех и помех от других пе­редатчиков, так как в этих каналах используются остронаправлен­ные антенны. Основным фактором, создающим ошибки при прие­ме цифровых сигналов, является низкое отношение сигнал/шум на входе приемника, что обусловлено большим расстоянием до пере­датчика. В то же время ширина полосы частот спутниковых кана­лов связи значительно шире, чем каналов наземного и кабельного телевидения.

Стандарт DVB предусматривает использование существую­щих каналов спутникового телевидения с шириной полосы частот 27 МГц в диапазоне частот 11... 12 ГГц. В перспективе предпола­гается использование диапазона 20...21 ГГц с более широкой по­лосой частот отдельных каналов. Для повышения помехоустойчи­вости применяются сверточные коды. В зависимости от конкрет­ного варианта канального кодирования пороговое отношение сигнал/шум на входе приемника равно 4,1...8,4дБ. Используется фазовая манипуляция несущей.

Получаемые для каналов связи с различной шириной полосы частот (по уровню 3 дБ) скорости передачи двоичных символов даны в табл. 6.2. Скорость передачи полезных данных (последний столбец) зависит от параметров канального кодирования. При по­вышении избыточности канального кода помехоустойчивость рас­тет, но скорость передачи полезных данных уменьшается.

Число кабельных и спутниковых каналов цифрового телеви­дения по стандартам DVB в Европе исчисляется многими сотнями.

 

ПРИЕМНОЕ УСТРОЙСТВО ДЛЯ КАБЕЛЬНОГО И СПУТНИКОВОГО ТВ-ВЕЩАНИЯ ПО СТАНДАРТАМ DVB

 

Для приема сигналов цифрового телевидения необходимо особое устройство, получившее название "d-box" или "Set-Top-Box". Первый вариант названия, по-видимому, происходит от сло­ва "digital" - цифровой, а второй вариант скорее всего показывает, что такое приемное устройство ставится на телевизионный прием­ник сверху. Выпуск таких устройств, а также специальных микро­схем для них, осуществляется многими ведущими радиоэлектрон­ными фирмами в Европе, Японии и Корее.

Рассмотрим в качестве примера структурную схему устройства "Set-Top-Box" на микросхемах фирмы Philips (рис. 6.1). Такое устройство принимает сигналы цифрового телевидения по кабель­ной линии и от спутниковой антенны и преобразует их в аналого­вые телевизионные сигналы для подачи на обычный телевизион­ный приемник.

Высокочастотный тюнер имеет два входа. К одному из них (КТВ) подключается линия кабельной телевизионной сети. Диапазон частот сигнала на этом входе от 50 до 850 МГц. На второй вход тюнера (СТВ) поступает сигнал с приемного устройства спутникового канала. Этот сигнал идет на несущей частоте, находящейся в диапазоне 1.. .2 ГГц, перенос на которую осуществляется в преобразователе, расположенном непосредственно у приемной антенны. При работе с любого из этих входов тюнер позволяет выбрать нужный телевизионный канал и переносит сигнал с несущей частоты выбранного канала на промежуточную частоту. Управление выбором режима ра­боты и настройкой на канал производится по шине 12С.

В случае приема кабельного телевидения сигнал промежу­точной частоты (ПЧ) с выхода тюнера поступает на АЦП, в каче­стве которого могут использоваться микросхемы типов TDA8790 или TDA8761. Дальнейшая обработка сигнала производится в цифровой форме. В блоке ДМД КАМн выполняются демодуляция квадратурной амплитудной манипуляции и канальное декодирова­ние. Микросхема TDA8046 позволяет демодулировать КАМн, имеющую 4, 16, 32, 64 или 256 возможных состояний (позиций).

В случае приема спутникового телевидения сигнал с выхода тюнера поступает на блок ДМД КФМн, в котором выполняется демодуляция квадратурной фазовой манипуляции и канальное декодирование. Этот блок построен на микросхеме TDA8042, пред­ставляющей собой собственно демодулятор, и микросхеме TDA8043, которая выполняет функции управления демодулятором и канального декодирования (Упр ДМД).

В обоих режимах приема сигналы после демодуляции и ка­нального декодирования поступают на декодер Рида-Соломона, (КОш - Корректор ошибок), в котором осуществляется коррекция ошибок в принятых данных. Этот блок выполняется на микросхе­ме SAA7207, на выходе которой формируется транспортный поток MPEG-2.

АЦП, демодулятор КАМн, канальный декодер и декодер ко­да Рида-Соломона могут быть реализованы на одной микросхеме канального приемника кабельного ТВ типа TDA10021. Функции демодуляции, канального декодирования и декодирования кода Рида-Соломона для приема спутникового ТВ могут выполняться одной микросхемой типа TDA10085.

Затем в блоке ДСкр выполняется дескремблирование сигна­ла, т. е. в соответствии с условиями доступа к конкретной телеви­зионной программе выполняется расшифровка данных. Дескремблер выполняется на микросхеме SAA7206. Наконец в блоке ДМп осуществляется демультиплексирование транспортного потока данных, который преобразуется в элементарные потоки видеодан­ных и звукового сопровождения в соответствии со стандартом MPEG-2. Этот блок реализуется на микросхеме SAA7205. Деск­ремблирование и демультиплексирование могут выполняться од­ной микросхемой SAA7219.

Полученные элементарные потоки данных поступают на де­кодер MPEG-2 (ДКд MPEG), выполняемый на микросхеме SAA7201. Возможно также использование микросхемы SAA7215 или SAA7216. В этом блоке выполняются синхронизация по при­нятым меткам времени встроенного генератора тактовой частоты 27 МГц, полное декодирование данных изображения, звука и дополнительной текстовой и графической информации в соответст­вии с главным уровнем главного профиля MPEG-2 (см. § 4.2) и формирование выходных цифровых сигналов изображения в соответствии с Рекомендацией 601 МККР) и звукового сопровожде­ния. Данные изображения выводятся в виде цифровых сигналов Y (сигнал яркости) и U, V (цветоразностные сигналы) в формате 4:2:2 по 8 бит на элемент изображения.

Поток данных на входе декодера до 20 Мбит/с. К декодеру подключается внешнее ОЗУ объемом 16 Мбит (организация 1Мх16) для временного хранения данных. Управление работой декодера по цифровой шине от внешнего блока управления. На­пряжение питания 3,3 В. Корпус микросхемы имеет 160 выводов.

Цифровой сигнал изображения поступает на микросхему ти­па SAA7124 (блок Видео ЦАП), в которой преобразуется в анало­говые видеосигналы. Эта микросхема имеет режимы формирования полных сигналов систем PAL и NTSC, режим формирования J сигналов стандарта S-видео, в соответствии с которым на одном  выходе присутствует сигнал яркости, а на другом выходе - сигнал цветности на поднесущей, режим вывода сигналов основных цветов R, G, В и режим вывода сигнала яркости Y и цветоразностных ' сигналов U, V. Выбор одного из режимов производится в зависи­мости от наличия соответствующих входов у используемого телеви­зионного приемника или монитора. Число разрядов ЦАП 10 или 9. Выполняется обработка сигналов субтитров. Управление работой микросхемы осуществляется по шине 12С.

Цифровые сигналы звукового сопровождения поступают на микросхему TDAI306T (Аудио ЦАП). Эта микросхема содержит два канала обработки звуковых сигналов для воспроизведения сте­реофонического звукового сопровождения. Число разрядов ЦАП 16. Динамический диапазон звука до 95 дБ. Отношение сигнал/шум не хуже 88 дБ. Управление по шине 12С.

Кроме того, устройство "Set-Top-Box" содержит блок управ­ления (БУ) с микропроцессором и приемником сигналов дистан­ционного управления. Команды от БУ к другим блокам передают­ся по двухразрядной цифровой шине 12С.

Приставка для приема наземного цифрового ТВ-вещания по стандарту DVB-T (см. ниже) имеет сходную структуру. В качестве демодулятора и канального декодера может использоваться мик­росхемой VES9600 фирмы Philips, на вход которой поступает ра­диосигнал на промежуточной частоте, а цифровой сигнал с выхода подается на декодер Рида-Соломона.

В системе цифрового телевидения должны быть методы и средства контроля параметров сигналов в различных частях сис­темы. Так как сигнал цифровой, то основным показателем качест­ва передачи становится частота ошибок. В табл. 6.3 перечислены параметры, контролируемые в приставке для приема цифрового телевидения. Следует отметить, что, например, для контроля транспортного потока, требуется принципиально новое оборудо­вание, так как по осциллографу проверить поток данных невоз­можно. Примером такого оборудования может служить система MTS 100 фирмы Tektronix.

 

НАЗЕМНОЕ ТЕЛЕВИЗИОННОЕ ВЕЩАНИЕ. СРАВНЕНИЕ DVB-T И ATSC

 

Переход к цифровому наземному ТВ-вещанию оказался трудной задачей, так как этот вид ТВ-вещания наиболее подвер­жен действию различных помех. При обычной передаче телевизи­онных сигналов по эфиру на качество приема помимо атмосфер­ных и индустриальных помех сильно влияют отраженные радио­волны (многолучевой прием) и помехи от других радиопередатчиков, работающих в этом же частотном диапазоне в соседних местностях.

Стандарт DVB-T предусматривает для передачи сигналов циф­рового телевидения по стандартным каналам ТВ-вещания использо­вание OFDM (см. § 5.3) [23]. Возможны два режима, называемые 8К (число несущих 6817) и 2К (число несущих 1705). Режим 8К позволя­ет использовать меньшие мощности передатчиков, но требует более производительных устройств обработки сигналов, чем режим 2К. Параметры для обоих режимов приведены в табл. 6.4.

Обозначения N, Д/, А, Тр были введены на рис. 5.7 и 5.8, с - скорость света. Об одночастототной сети вещания будет сказа­но позже.

Из приведенных данных видно, что сигнал цифрового теле­видения, передаваемый с помощью OFDM, можно разместить в стандартном радиоканале аналогового ТВ-вещания с полосой про­пускания 8 МГц, обеспечивая между соседними радиоканалами защитные частотные интервалы приблизительно по 0,39 МГц.

В табл. 6.5 приведены значения скорости передачи двоич­ных символов для полезной информации и допустимого мини­мального отношения сигнал/шум в радиоканале для различных способов модуляции отдельных несущих OFDM. Эти результаты справедливы для обоих режимов: 8К и 2К.

Значения отношения сигнал/шум даны для случаев приема на стационарную и на мобильную антенну. В последнем случае телевизионный приемник может быть установлен на автомобиле или другом транспортном средстве. Значения достижимой скоро­сти передачи даны для разных отношений Δ/Тр (1/4, 1/8, 1/16 178 и 1/32). Относительная скорость кода характеризует избыточность, вносимую применяемым методом канального кодирования (см. § 5.3, формула (5.13)).

 

Сопоставляя числа, приведенные в табл. 6.5, со значениями скорости передачи двоичных символов, соответствующими раз­личным уровням качества воспроизводимого изображения при сжатии по стандарту MPEG-2 (§ 4.2), можно выбирать способы модуляции несущих и значения защитных интервалов, обеспечи­вающие передачу требуемого количества ТВ-программ с заданным качеством изображения. По значениям отношения сигнал/шум можно рассчитывать требуемые мощности передатчиков и разме­ры зон уверенного приема.

Из таблицы видно, что прием сигналов цифрового телевиде­ния возможен при низких отношениях сигнал/шум. Для сравнения напомним, что для получения качественного изображения при приеме обычного аналогового телевизионного сигнала необходи­мо отношение сигнал/шум около 50 дБ.

Рассмотрим другие особенности стандарта DVB-T. Будем называть символом OFDM совокупность информационных симво­лов, передаваемых в данный момент времени на всех несущих час­тотах. Символы OFDM, организуются в кадры, каждый из которых содержит 68 символов OFDM. 4 кадра образуют суперкадр, кото­рый содержит целое число транспортных пакетов MPEG-2.

В каждом символе OFDM для режимов модуляции 8К и 2К выделяется, соответственно, 769 и 193 опорных несущих, которые по сравнению с остальными несущими передаются с повышенной на 2,5 дБ мощностью. Часть опорных несущих имеют постоянные положения на оси частот, а положения остальных опорных несу­щих изменяются от одного символа OFDM к другому. На опорных несущих передаются сигналы для автоподстройки опорных частот демодулятора, сигналы тактовой синхронизации, сигналы управ­ления демодулятором, содержащие информацию об используемых режимах модуляции, и другая наиболее важная для обеспечения приема информация.

Кадр содержит все необходимые сигналы для синхрониза­ции демодулятора. Поэтому длительность задержки начала приема после, например, переключения каналов, не превышает длитель­ности одного кадра.

Стандарт DVB-T предусматривает возможность использова­ния иерархической модуляции. Сущность этого метода состоит в том, что передаваемый цифровой поток разбивается на два потока. Первый поток кодируется с более высокой помехоустойчивостью, и в нем передается наиболее значимая часть информации, напри­мер, старшие разряды видео- и аудиоданных. Второй поток коди­руется с меньшей помехоустойчивостью и используется для пере­дачи менее значимой части информации. При использовании про­филей MPEG-2, имеющих масштабируемость (см. раздел 4.2.2), первый поток может соответствовать базовому слою потока дан­ных, а второй поток - дополнительному слою.

Иерархическая модуляция дает возможность принимать те­левизионные программы, хотя и с пониженным качеством изобра­жения, при неблагоприятных условиях, например, на значитель­ном удалении от передатчика или при наличии существенных помех.

Еще одна особенность стандарта DVB-T - возможность по­строения одночастотной сети телевизионного вещания (Single Frequency Network - SFN), в которой соседние передатчики могут одновременно вести вещание на одной несущей частоте, синхрон­но передавая одну и ту же ТВ-программу, причем области приема их сигналов перекрываются. В зонах перекрытия, благодаря при­менению OFDM, наличие сигналов от двух передатчиков не толь­ко не ухудшает качество приема, но наоборот, позволяет улучшить прием за счет сложения двух сигналов. Использование одночас­тотной сети позволяет охватить наземным ТВ-вещанием большую территорию, распределив по ней требуемое количество относи­тельно маломощных передатчиков.

Канальное кодирование (внутреннее кодирование) в соответ­ствии со стандартом DVB-T основано на применении сверточного кода и имеет целью защиту передаваемой информации от селек­тивных замираний несущих в групповом сигнале OFDM при рабо­те в синхронной одночастотной сети ТВ-вещания и от помех при многолучевом приеме в случае использования простых дипольных антенн. В результате частота ошибок на выходе демодулятора снижается с 10-1...10-2 до 2х10-4, что обеспечивает нормальную ра­боту декодера Рида-Соломона.

Кроме того, для защиты от селективных замираний несущих OFDM производится побитное и побайтовое перемежение данных с тем, чтобы соседние биты и байты не передавались на соседних несущих.

DTV-T не единственная система наземного цифрового ТВ-вещания. В США принят свой стандарт наземного цифрового ТВ, называющийся ATSC (Advanced Television Systems Committee -Комитет по усовершенствованным системам телевидения). В ос­нове этого стандарта также лежит метод сжатия движущихся изо­бражений MPEG-2, позволяющий передавать как ТВ-программы обычной четкости, так и ТВЧ. Для сжатия звукового сопровожде­ния применен метод Долби АС-3 (см. § 4.4).

Для передачи по обычным радиоканалам в ATSC применя­ется 8-позиционная амплитудная манипуляция с частично подав­ленной боковой полосой, обозначаемая 8VSB. Имеется несколько ступеней помехоустойчивого кодирования. Для. подавления отра­женных сигналов при многолучевом приеме в приемнике используется адаптивный эквалайзер, представляющий собой цифровой фильтр с настраиваемыми коэффициентами.

В передаваемый сигнал вводятся специальные опорные им­пульсы, форма и положение которых точно известны. В процессе приема адаптивный эквалайзер автоматически настраивается так, чтобы параметры опорных импульсов на его выходе максимально соответствовали заданным значениям. Тем самым обеспечивается коррекция искажений, создаваемых отраженными сигналами. Так как все сигналы в радиоканале передаются в одинаковых услови­ях, то в результате настройки эквалайзера по опорным импульсам обеспечивается подавление отраженных составляющих и в осталь­ном цифровом телевизионном сигнале.

Сравним DVB-T и ATSC. Параметры передаваемых изобра­жений в обоих стандартах одинаковы, так как определяются стан­дартом MPEG-2. По качеству звукового сопровождения стандарты также эквивалентны, так как в DVB звук тоже может кодироваться с применением стандарта АС-3. Основное различие заключается в применяемых методах модуляции и проявляется в различной ус­тойчивости к действию помех.

В некоторых публикациях отмечалось, что DVB-T имеет ряд преимуществ перед ATSC:

DVB-T обеспечивает реальное уменьшение мощности ТВ-передатчиков в условиях городской застройки;

-  при использовании DVB-T прием на комнатные антенны и антенны переносных телевизоров не создает проблем, а при ис­пользовании ATSC - в большинстве случаев невозможен;

- DVB-T обладает высокой устойчивостью к помехам, созда­ваемым аналоговым ТВ-вещанием, и может сосуществовать с ним;

DVB-T дает возможность создания одночастотных сетей с перекрытием зон приема сигналов соседних передатчиков.

В то же время в ряде публикаций предпочтение отдается ATSC.

Еще один стандарт наземного цифрового ТВ-вещания, назы­ваемый ISDB-T, был разработан в Японии. Здесь этот стандарт не рассматривается.

 

DVB И "СОТОВОЕ ТЕЛЕВИДЕНИЕ"

 

В последние годы в телевидении наблюдается возобновле­ние интереса к эфирным каналам. Это системы сотового телевидения, которые как и системы сотовой радиосвязи, основаны на ис­пользовании большого количества относительно маломощных пе­редатчиков СВЧ-диапазона, каждый из которых обслуживает не­большую территорию. Наличие в сети множества ячеек позволяет предлагать пользователям свой набор ТВ-программ в каждой их них, что выгодно отличает сеть сотового ТВ от существующих систем эфирного ТВ-вещания в метровом и дециметровом диапа­зонах.

Абонентское оборудование представляет собой обычный спутниковый тюнер, работающий в диапазоне частот 950...2050 МГц. Антенна с СВЧ-приемником представляет собой легкое ком­пактное устройство диаметром около 150 мм (40 ГГц) или 250 мм (28 ГГц). Так как антенна остронаправленная, то принимаются сигналы только того передатчика, на который она нацелена. Пре­образование частоты сигнала в рабочий диапазон тюнера выпол­няется СВЧ-блоком, расположенным в антенне.

Аналоговая система сотового телевидения MMDS (Multichannel Microvave Distribution System) использует широко­полосные каналы с ЧМ в СВЧ диапазоне. К цифровым системам сотового телевидения относятся LMDS (Local Multipoint Distribution System) и MVDS (Multipoint Video Distribution System). Такие системы, как правило, работают в диапазонах радиочастот 27,5..29,5 ГГц (Северная Америка) и 40,5...42,5 ГГц (Европа) и ис­пользуют помехоустойчивые виды модуляции (QPSK). Известны варианты таких систем и для работы в других частотных диапазо­нах, например 24, 31 и 38 ГГц. В полосе частот 2 ГГц с помощью этих систем можно передавать от 96 до 128 аналоговых ТВ-каналов или в несколько раз больше цифровых. При этом передача радиосигналов осуществляется на экологически безопасных уров­нях мощности 100..300 мВт на канал.

По данным зарубежных специалистов, стоимость разверты­вания сети сотового ТВ в городских условиях в 3-5 раз ниже стоимости строительства традиционных широкополосных кабель­ных сетей. Большое количество широкополосных каналов и низкая требуемая мощность передатчиков делают системы сотового теле­видения перспективными не только для обычного телевизионного вещания, но и для систем интерактивного телевидения и видеосвя­зи. Передача цифровых информационных потоков в обоих направлениях, в таких системах может осуществляться со скоростями 2, 34 и даже 155 Мбит/с.

Перспективность новых методов ТВ-вещания нашла отра­жение в стандартах DVB. Методы передачи программ цифрового телевидения по сети MMDS для частот выше 10 ГГц описаны в стандарте DVB-MS, который является развитием стандарта DVB-S для спутникового ТВ, а для частот ниже 10 ГГц - в стандарте DVB-MC, основанном на стандарте DVB-C для кабельного ТВ.

 

6.2. Системы видеосвязи

 

Система видеосвязи обеспечивает двустороннюю передачу изображения и звука между абонентами этой системы по провод­ным и радиоканалам. В этом ее принципиальное отличие от тра­диционных систем вещательного и прикладного телевидения, в которых передача изображения и звука осуществляется в одном направлении. Основные типы систем видеосвязи: видеотелефон, обеспечивающий связь между двумя абонентами, и системы ви­деоконференций, обеспечивающие одновременное участие более двух абонентов в сеансе связи.

Структурная схема типовой системы видеосвязи приведена на рис. 6.2. Система в самом общем представлении состоит из сети передачи данных и множества абонентских терминалов, соединен­ных с сетью передачи данных абонентскими каналами (АК). Або­нентский терминал содержит средства ввода и вывода видеоин­формации (видеокамеру и монитор), средства ввода и вывода зву­ковой информации (микрофоны, динамики и соответствующие электронные схемы). Имеются также средства ввода и вывода дан­ных, т. е. числовой, символьной и другой информации.

Каждая составляющая информации после ввода кодируется в соответствующем кодере, а перед выводом (воспроизведением) декодируется в соответствующем декодере. Мультиплексор (Мп) объединяет кодированную передаваемую информацию перед пе­редачей. Демультиплексор (ДМп) разделяет принятую из сети ин­формацию на составляющие перед декодированием. Модем (мо­дулятор-демодулятор) обеспечивает передачу и прием цифровой информации по абонентскому каналу.

 

В качестве абонентского терминала, как правило, использует­ся ПК, дополненный звуковой платой, к которой подключены мик­рофон и громкоговорители, и платой ввода телевизионных сигна­лов, к которой подключена телекамера. При этом важной частью системы видеосвязи становится программное обеспечение, реали­зующее функции кодирования/декодирования, мультиплексирова­ния/демультиплексирования, посылки и приема данных через сеть.

Для начала сеанса двусторонней видеосвязи один из абонен­тов посылает через сеть по адресу второго абонента сигнал вызова. После поступления ответного сигнала от второго абонента устанав­ливается связь и начинается обмен видео и звуковой информацией. Изображение и голос каждого из участников сеанса вводятся в ком­пьютер, кодируются, объединяются в общий поток данных и пере­даются по сети другому участнику, который слышит голос собесед­ника и видит его изображение на экране монитора. При многосто­ронней   видеосвязи   (видеоконференция)   на   экране   монитора каждого участника сеанса отображаются изображения остальных/ участников, а их голоса воспроизводятся вместе или по выбору.

В системах видеосвязи с невысоким качеством изображения используются форматы QCIF и даже SQCIF (см. § 2.3). В системах с более высоким качеством изображения используется формат CIF. Частота передачи кадров может быть от 2...5 до 12... 15 и более кадров в секунду. При этом частота кадровой развертки в монито­ре существенно больше - 60..72 Гц. Согласование частоты переда­чи кадров по каналу связи и частоты кадровой развертки достига­ется путем запоминания принятого кадра в ОЗУ ПК и воспроизве­дения его несколько раз. Скорости передачи двоичных символов, необходимые для передачи видеоинформации указанных форма­тов, были даны в табл. 2.1.

Речь передается обычно с частотой дискретизации 8 кГц и числом разрядов квантования не менее 12, что дает требуемую скорость передачи двоичных символов 96 кбит/с.

Для отдельного абонента возможность передачи требуемых для видеосвязи объемов информации определяется параметрами абонентского канала. Далее даны краткие сведения об основных типах абонентских каналов.

1.  Обычные телефонные линии, передача цифровых данных по которым осуществляется с помощью модемов. Как правило ис­пользуются модемы, обеспечивающие скорость передачи двоич­ных символов до 28,8 или 33,6 кбит/с. При использовании более быстродействующих модемов (56 кбит/с и более) основным фак­тором, ограничивающим скорость передачи, становится недоста­точно высокое отношение сигнал/шум в телефонной сети.

2.  Каналы сети ISDN (Integrated Services Digital Network -цифровые сети интегрированного сервиса). Абонентский канал BRA (Basic Rate Access - Базовый доступ) представляет собой двухпроводную линию, как и в телефонной сети. С помощью од­ного BRA реализуются два В-канала по 64 кбит/с каждый и один служебный D-канал на 16 кбит/с. Для видеосвязи эти три канала могут объединяться, что дает 144 кбит/с. Подключение ПК к ISDN осуществляется через терминальный адаптер. ISDN такого типа называется узкополосной (N-ISDN) и, благодаря относительно не­высокой стоимости, получает все более широкое распространение.

3.   Широкополосная ISDN (B-ISDN), использующая асин­хронный метод передачи (ATM - Asynchronous Transfer Mode).

В такой сети используются волоконно-оптические линии с пропу­скной способностью 155 Мбит/с и 622 Мбит/с. B-ISDN имеет вы­сокую стоимость, и использование таких каналов доступно далеко не всем.

4. Выделенные цифровые каналы, т. е. широкополосные ли­нии связи, например, через спутник. Например, канал типа Е1 имеет пропускную способность 2048 кбит/с. Аренда такого канала и оборудование для связи имеют высокую стоимость.

Таким образом, доступные широкому кругу пользователей каналы имеют небольшую пропускную способность, и для реали­зации видеосвязи необходимо сжимать передаваемые изображения и звук.

По способу коммутации можно выделить два типа сетей связи.

1.  Сети с коммутацией каналов, к которым относятся обыч­ная аналоговая телефонная сеть и цифровая сеть ISDN. В таких сетях с помощью электрических коммутаторов (контактных или бесконтактных) организуется прямое соединение между абонен­тами. Пропускная способность линии связи полностью использу­ется для обмена информацией между участниками данного сеанса.

2.  Цифровые сети с коммутацией пакетов. В таких сетях от­сутствует электрическая коммутация. Каждый абонент сети имеет индивидуальный адрес. Пересылаемые данные организуются в ви­де пакетов, содержащих адрес получателя. На вход абонентского терминала поступают пакеты данных, передаваемые по сети не только этому абоненту, но и его "соседям", но принятыми могут быть только пакеты, адресованные именно этому абоненту. При­мерами сетей с коммутацией пакетов являются локальные вычис­лительные сети (ЛВС) и Интернет.

Для абонента реальная пропускная способность сети с ком­мутацией пакетов зависит не только от пропускной способности абонентского канала, но и от того, какие объемы информации пе­редаются по сети в данное время. Этот факт хорошо известен всем, кто работает в Интернет. Если в сети всегда реализуется номи­нальная пропускная способность, то это сеть с гарантированным качеством обслуживания. В противном случае сеть обеспечивает негарантированное качество обслуживания.

ITU разработала и утвердила ряд рекомендаций по системам видеосвязи :

-  Н.320 - видеотелефония в узкополосных цифровых сетях с коммутацией каналов (N-ISDN);

-  Н.321 - видеотелефония в широкополосных цифровых се­тях с коммутацией каналов (B-ISDN, ATM);

-  Н.322 - видеотелефония в цифровых сетях с коммутацией пакетов и гарантированным качеством обслуживания (ЛВС);

-  Н.323 - видеотелефония в цифровых сетях с коммутацией пакетов и негарантированным качеством обслуживания (ЛВС, Ин­тернет);

- Н.324 - видеотелефония в аналоговых сетях с коммутацией каналов (аналоговые телефонные сети общего пользования).

Каждая из этих рекомендаций включает набор рекоменда­ций, определяющих параметры отдельных частей системы видео­связи. Например, рекомендация Н.320 включает:

-  рекомендации Н.261 и Н.263 определяющие методы коди­рования и декодирования видеоинформации (см. § 4.4);

-  рекомендации G.711, G.722, G.728, определяющие методы кодирования и декодирования аудиоинформации (см. § 4.4);

-  рекомендацию Н.221, определяющую методы мультиплек­сирования и демультиплексирования потоков данных;

- рекомендации Н.230, Н.242, Н.243, определяющие сигнали­зацию (вызов и др.), управление и контроль;

-  рекомендации серии Т (Т. 120 и др.), определяющие взаи­модействие программно-аппаратных средств при обмене данными.

Перспективным средством для систем видеосвязи является стандарт MPEG-4 (см. § 4.3).                                                           

Подробно с содержанием рекомендаций ITU, относящихся к системам видеосвязи, а также с примерами практической реализации таких систем можно ознакомиться в [18].                               

 

6.3. Цифровое прикладное телевидение

 

Системы прикладного телевидения предназначены для пере­дачи и приема изображений в промышленности, науке, образова­нии, медицине, военном деле, обеспечении безопасности и других областях деятельности человека. Главным отличием систем прикладного телевидения от систем ТВ-вещания является ограничен­ное количество получателей информации. Поэтому в прикладном телевидении нет необходимости в такой жесткой стандартизации параметров разверток и сигналов, как в ТВ-вещании.

Цифровые технологии в прикладном телевидении исполь­зуются в первую очередь для сжатия видео и аудиоинформации с целью передачи по узкополосным каналам связи и записи в ЗУ и для анализа изображений с целью автоматизации некоторых функций системы.

В качестве примера рассмотрим систему наблюдения, разра­ботанную фирмой Intelligent Instruments Corporation, США [25]. Система обеспечивает наблюдение за многими зонами, располо­женными в разных частях города, автоматически выбирает для показа оператору зону, в которой что-то происходит и обладает другими полезными свойствами.

Система состоит (рис. 6.3) из центральной станции ЦС и многих периферийных станций ПС, подключенных к сети ISDN через блоки управления и связи (БУиСв). Каждая периферийная станция содержит ТВ-камеру, кодер изображения (видеокодер), блок ввода/вывода звука (В/В звука), кодер/декодер звука (кодек звука), ЗУ. Центральная станция содержит декодер изображения (Декодер видео), монитор и указанные выше блоки звукового ка­нала. БУиСв на ЦС выполняется на основе ПК, а на каждой ПС -на основе микропроцессоров.

 

 

В процессе наблюдения в каждой ПС видеосигнал записыва­ется в ЗУ, которое все время содержит несколько последних кад­ров, сжатых методом JPEG. Каждый новый кадр сравнивается с запомненным предыдущим с целью обнаружения изменений, которые могут быть результатом наличия движения в наблюдае­мой зоне. При обнаружении движения данная ПС устанавливает через ISDN связь с ЦС и начинает пересылать в реальном времени движущееся изображение, сжатое в соответствии с Рекомендацией Н.261.

Оператор на ЦС наблюдает полученное изображение на эк­ране монитора. Он может также слышать звуки и устанавливать голосовую связь с людьми в наблюдаемой зоне. При необходимо­сти оператор может вызвать пересылку с ПС запомненного непод­вижного изображения высокого качества (не в реальном времени).

 

6.4. Цифровое телевидение и компьютерные технологии

 

Переход к цифровому представлению видеосигналов и сиг­налов звукового сопровождения и появление методов многократ­ного сжатия данных, рост производительности и объемов ЗУ пер­сональных компьютеров и рабочих станций при одновременном снижении их стоимости, стремительное развитие Интернет и других сетевых технологий создают предпосылки для широкого применения вычислительной техники в различных частях телеви­зионных систем. Ниже приведены несколько примеров таких применений.

 

СИСТЕМЫ НЕЛИНЕЙНОГО МОНТАЖА

 

Одна из важнейших областей применения компьютеров в телевидении - системы редактирования и монтажа видеомате­риалов и подготовки телевизионных программ.

Сначала рассмотрим традиционную схему монтажа на осно­ве видеомагнитофонов (рис. 6.4,а). Исходные видеоматериалы в аналоговой или цифровой формах записаны на видеокассеты и воспроизводятся видеомагнитофонами ВМ1 и ВМ2 (источников монтируемых видеоматериалов может быть и больше). Видеосиг­налы поступают на устройство, выполняющее функции микшера и формирователя видеоэффектов. Полученный в результате монтажа видеосигнал записывается на видеомагнитофон ВМЗ. Систе­ма содержит также не показанные на рисунке мониторы для кон­троля воспроизводимых и записываемых видеопрограмм.

 

Система монтажа позволяет в требуемом порядке записы­вать фрагменты видеоматериалов. При этом видеомагнитофоны ВМ1 и ВМ2 необходимо включать и выключать, перематывать ленту и т.д. Формирователь видеоэффектов дает возможность вво­дить в изображение текст и графику и создавать плавные переходы от одного фрагмента к другому, например, путем постепенного вытеснения одного изображения другим. Возможно наложение одного изображения на другое (фрагмент А2+В2 в смонтирован­ном видеоматериале) с применением рир-проекции.

Традиционный видеомонтаж называется линейным, так как видеомагнитофоны обеспечивают последовательный доступ к ин-формации, и для того, чтобы найти какой-либо фрагмент на ленте, необходимо перемотать ее до нужного места.

Система нелинейного монтажа (рис. 6.4,6) содержит один или несколько цифровых видеомагнитофонов (ВМ) для хранения исходных материалов и конечного продукта. Центром системы является высокопроизводительный ПК или рабочая станция (ком­пьютер, по производительности и объему ЗУ значительно превос­ходящий обычные ПК), имеющий монитор с экраном, обеспечи­вающим высококачественное отображение нескольких кадров и различной вспомогательной информации.

Фрагменты телевизионных программ, подлежащие редакти­рованию и монтажу, вводятся в компьютер с помощью специаль­ной платы ввода/вывода (платы "захвата" видеосигналов), сжима­ются и записываются на жесткие магнитные диски (НМД). Для сжатия обычно применяется метод Motion JPEG, в соответствии с которым каждый кадр кодируется независимо от других кадров. Это дает возможность индивидуального доступа к отдельным кад­рам. Операция сжатия в реальном времени выполняется аппаратными средствами в плате компрессии/декомпрессии и видеоэффектов.                                                                                             

Хранение редактируемых материалов на диске дает возмож­ность быстро находить и переставлять в произвольном порядке фрагменты изображения и отдельные кадры, составляя нужную видеопрограмму (рис. 6.4,в). При этом процесс монтажа значи­тельно ускоряется и возникают новые возможности, недоступные в ранее применявшихся системах. Операции повышения качества изображения путем коррекции цвета, фильтрации шумов и т. д., « ввода в изображение текста и графики, синтеза искусственных изображений и видеоэффектов и др. выполняются как аппаратными средствами, так и программно центральным процессором (ЦП).

Выполнение всех операций внутри компьютера позволяет избежать потерь качества при многократной перезаписи, неизбежных.; даже при цифровой видеозаписи из-за дефектов магнитных лент. На последней стадии подготовки программы производится ее сжатие для записи на видеодиск или трансляции. Процесс сжа­тия контролируется оператором, который может регулировать степень сжатия, корректировать положения кадров и размеры групп кадров и выполнять другие действия для получения наилучшего качества изображения.

Снижение стоимости устройств ввода видеосигналов и ко­дирования по стандарту MPEG-2 постепенно делает системы не­линейного цифрового монтажа доступными для небольших теле­визионных и мультимедийных компаний и даже для любителей.

 

ВИДЕОСЕРВЕРЫ

 

Видеосерверы - новый класс устройств, появившийся с на­чалом перехода к цифровому телевидению. Видеосервер - это компьютер, существенно превосходящий по производительности обычные компьютеры и содержащий дисковую память большого объема и блоки ввода/вывода аналоговых и цифровых ТВ-сигналов и звуковых сигналов. На современных телестудиях ви­деосерверы заменяют видеомагнитофоны и становятся основным средством воспроизведения заранее записанных видеопрограмм.

На рис. 6.5 показаны структура видеосервера и его связи с остальным студийным оборудованием. Видеосервер содержит блок памяти на жестких магнитных дисках большого объема (ДЗУ), центральный процессор ЦП, ОЗУ, блоки вывода потоков данных (БВПД), блоки связи с видеомагнитофонами (БСВМ), блок вывода на монитор (БВМ). Выходы БВПД подключаются ко вхо­дам трактов передачи ТВ-программ (ТПП). К видеосерверу под­ключаются также цифровые или аналоговые видеомагнитофоны (ВМ), монитор, локальная вычислительная сеть (ЛВС) и другие устройства, не показанные на рисунке. Помимо аппаратной части, видеосервер содержит также специализированное программное обеспечение.

На телестудии записанные на видеокассеты (в цифровой или аналоговой форме) видеопрограммы хранятся в Архиве видеокас­сет, который может быть автоматизирован и роботизирован. Ви­деопрограммы, которые предполагается передавать в ближайшее время, с помощью видеомагнитофонов переписываются с видео­кассет в ДЗУ. При этом выполняется сжатие видео и аудиоинфор­мации. Степень сжатия задается в соответствии с требуемым каче­ством изображения и звука. В процессе передачи видеопрограммы ее данные считываются из ДЗУ и через БВВП поступают в тракт передачи ТВ-программ, в котором выполняются формирование транспортного потока, скремблирование и помехоустойчивое ко­дирование, после чего поток данных направляется на передатчик.

Каждый БВПД может независимо считывать данные из ДЗУ и направлять их на соединенный с ним тракт передачи ТВ-программ. Это позволяет одновременно воспроизводить несколь­ких записанных в ДЗУ видеопрограмм. Для каждой из этих видео­программ обеспечиваются такие возможности, как стоп-кадр, ус­коренное или замедленное воспроизведение, перемотка вперед или назад. Таким образом, один видеосервер выполняет (эмулирует) функции сразу нескольких независимых видеомагнитофонов (вир­туальных видеомагнитофонов). Возможна параллельная передача нескольких копий одной и той же видеопрограммы со сдвигом во времени. При этом в ДЗУ записывается только один экземпляр этой видеопрограммы, и воспроизведение нескольких ее копий осуществляется путем одновременного формирования нескольких потоков данных, считываемых разными БВПД из разных мест ДЗУ.

Видеосервер может использоваться также для записи посту­пающих по ЛВС или по другим линиям связи цифровых ТВ сигна­лов от различных источников (видеокамеры, кабельные и спутни­ковые каналы ТВ-вещания и т.д.) с последующей перезаписью на видеокассеты, для выполнения нелинейного видеомонтажа с запи­сью смонтированной программы на видеокассеты и для других операций. Вывод данных может производиться и через ЛВС.

Видеосерверы должны удовлетворять следующим требова­ниям:

- высокая надежность, достигаемая резервированием основ­ных узлов, в первую очередь жестких магнитных дисков;

- модульный принцип построения, позволяющий постепенно наращивать объем ДЗУ, число одновременно передаваемых ви­деопрограмм, функциональные возможности;

- совместимость с существующим студийным оборудованием. Использование видеосерверов позволяет автоматизировать

ТВ-вещание и существенно увеличить количество одновременно передаваемых телевизионных каналов, что является одной из ос­новных целей перехода на цифровое ТВ-вещание. При этом со­кращаются (в расчете на один передаваемый канал) занимаемые студийным оборудованием площади, количество обслуживающего персонала, расход электроэнергии. Применение видеосервера ста­новится экономически выгодным, если его стоимость в расчете на один канал меньше стоимости обычного студийного видеомагни­тофона.

Видеосерверы выпускаются многими фирмами, и на рынке есть системы разных уровней сложности и стоимости. В качестве примера можно назвать систему MAV-1000 фирмы Sony, которая обеспечивает хранение видеопрограмм длительностью 11 или 23 часа (в зависимости от конфигурации), одновременную передачу до восьми каналов ТВ-вещания. Другая известная компания IBM производит мощный видеосервер MediaStreamer, содержащий дис­ковую подсистему MediaStreamer Archive емкостью до 6 Тбайт данных (что соответствует примерно 1000 двухчасовых видео­фильмов). Стоимость этого видеосервера от 129 тыс. долл.

 

 

ИНТЕРАКТИВНОЕ ТЕЛЕВИДЕНИЕ

 

В системах интерактивного ТВ пользователь имеет возмож­ность воздействовать на источник принимаемой им ТВ-программы, передавая команды или данные по обратному каналу на головную станцию системы. Интерактивные телевизионные системы смогут предоставлять своим абонентам ряд новых услуг:

-  передачу видеопрограмм по заказу абонентов (Video-on-Demand - Видео по заказу);

обучение, доступ к библиотекам и базами

- выполнение банковских операций на дому; pax, конкурсах викторинах и т. д

В системах интерактивного ТВ применяются три основных способа организации обратных каналов.

1.  Использование существующих телефонных сетей общего пользования. В этом случае соединение абонента с головной стан­цией и передача данных от абонента могут осуществляться обыч­ным образом (набор номера и т. д.) или с применением какой-либо автоматизации.

2. Организация обратных каналов в существующих системах кабельного ТВ. Как правило, для этого используется диапазон час­тот 5..40 МГц, в котором нет ТВ-каналов. Передача данных в этом диапазоне от многих абонентов системы осуществляется с приме­нением частотного, временного или других способов разделения.

3.  Передача обратной информации по радиоканалу. В этом случае в телевизор может быть встроен миниатюрный абонент­ский передатчик. Возможно использование систем подвижной свя­зи на базе низколетящих спутников. Например, по проекту ISIDE, разрабатываемому   по   инициативе   Европейского   космического агентства, передача обратной информации осуществляется на час­тоте 30 ГГц с использованием абонентского передатчика мощно­стью 1 Вт. Для передачи отведена полоса частот 500 МГц, в пре­делах которой расположены 625 несущих с разносом 0,8 МГц. Каждая  несущая модулируется с применением   16-позиционной частотной манипуляции и обеспечивает обратный цифровой канал передачи данных со скоростью 64 кбит/с.

Различные виды сервиса в системах интерактивного ТВ тре­буют разных уровней пропускной способности обратных каналов. Для проведения видео- и аудиоконференций необходимы высоко­скоростные каналы с пропускной способностью порядка 64 кбит/с. Для выполнения торговых и банковских операций, участия в теле­играх и конкурсах требуются среднескоростные каналы с пропу­скной способностью порядка 6...7 кбит/с. Для передачи заказов на видеопрограммы, а также для участия в опросах и голосованиях могут использоваться низкоскоростные каналы связи с пропуск­ной способностью порядка 150 бит/с.

Одним из первых типов систем интерактивного ТВ, получив­ших достаточно широкое распространение, стали системы Видео по заказу. Обычно такие системы реализуются на базе существующих систем кабельного ТВ. Пользователи вносят абонементную плату или оплачивают счета за реально просмотренные ими видеопрограммы.

Абонент выбирает интересующую его видеопрограмму в меню, отображаемом на экране его телевизора, и посылает заказ на головную станцию. В идеальном случае он сразу начинает по­лучать заказанную видеопрограмму по одному из ТВ-каналов. При этом в абонентскую приставку должны поступить с головной станции номер ТВ-канала, по которому будет идти передача, иден­тификаторы для выделения из транспортного потока пакетов с ви­део- и аудиоданными заказанной видеопрограммы, ключ для дескремблирования. Все эти данные, включая меню, могут быть пере­даны с головной станции по телевизионному кабелю, по телефонной сети или по какому-либо другому каналу связи. На­пример, эти данные могут передаваться в особых пакетах транс­портного потока в одном из ТВ-каналов.

Число абонентов, которые могут одновременно получить та­кое идеальное обслуживание, определяется, во-первых, возможно­стями видеосервера на головной станции системы интерактивного ТВ, а во вторых, количеством ТВ-каналов, которые могут одно­временно передаваться по кабельной сети. Очевидно, что для соз­дания системы, способной обслужить достаточно много абонен­тов, необходимо использование достижений цифрового ТВ.

Системы интерактивного ТВ начали свое распространение с гостиниц. Помимо Видео по заказу такие системы предоставля­ют возможность получения информации о гостинице, заказа блюд и напитков в номер, вызова такси и т.п.

 

ТЕЛЕВИДЕНИЕ И ИНТЕРНЕТ

 

Интернет (как синоним часто используется термин Сеть) объединяет бесчисленное множество локальных вычислительных сетей и индивидуальных пользователей по всей Земле. Основой Интернет являются протоколы передачи данных FTP и ТСРЯР, в соответствии с которыми данные передаются пакетами, каждый из которых снабжается адресом получателя. Пакеты с данными передаются по Сети от одного узла к другому, пока не доходят до заданного адреса.

Возможны два основных варианта передачи видео- и аудио­информации через Интернет.

Первый вариант заключается в получении ("скачивании") из Сети файлов, содержащих в сжатом виде видеопрограммы со зву­ковым сопровождением, и последующее воспроизведении этих файлов на компьютере. Скачивание файла может занимать суще­ственно большее время, чем длительность воспроизведения. Раз­меры получаемых таким образом файлов обычно ограничены сво­бодным объемом жесткого диска компьютера, реальной скоростью передачи данных и другими факторами. Такой вид сервиса нельзя назвать передачей ТВ-программ через Интернет.

Второй вариант предполагает получение через Сеть сжатых видео- и аудиоданных со скоростью, позволяющей в реальном вре­мени воспроизводить движущиеся изображения и звук. Качество изображения определяется реальной пропускной способностью Се­ти на всем протяжении пути от видеосервера, который является от­правителем данных, до компьютера получателя видеопрограммы.

Встречаются утверждения, что для получения изображения достаточно хорошего качества достаточно иметь пропускную спо­собность не менее 28,8 кбит/с. Однако такая скорость передачи двоичных символов может обеспечить лишь изображение формата SQCIF с сильно пониженной частотой передачи кадров. Для полу­чения действительно приемлемого качества изображения даже при использовании мощных методов сжатия из стандарта MPEG-4 не­обходимо, чтобы реальная пропускная способность была не менее 128 кбит/с, что требует подключения абонента по крайней мере к сети N-ISDN.

Обеспечение более-менее полноценного ТВ-вещания через Интернет требует решения следующих задач:

1.  Увеличение пропускной способности каналов связи, дос­тупных массовому пользователю. Один из путей решения этой за­дачи - использование для подключения к Интернет сети кабельно­го ТВ. Для этого у абонентов устанавливаются кабельные модемы, обеспечивающие   скорость   передачи   по   прямому   каналу   до 30 Мбит/с и создание обратного канала с пропускной способно­стью от 64 кбит/с до 1,5 Мбит/с.

2.  Обеспечение передачи данных по всему пути от источни­ка до получателя с гарантированным качеством обслуживания.

3.  Обеспечение возможности многоадресной передачи дан­ных, когда данные от одного источника (видеосервера) одновре­менно направляются многим адресатам.

Решение последних двух задач связано с введением новых про­токолов передачи информации через Интернет, таких как RTP - Real­time Transport Protocol (Транспортный протокол реального времени).

 

ИНТЕГРАЦИЯ ФУНКЦИЙ ТВ-ПРИЕМНИКОВ И ПК

Персональные компьютеры, число которых в домах быстро увеличивается, могут использоваться для приема и воспроизведе­ния телевизионных программ. Специальные платы, вставляемые в свободный разъем магистрали ПК и содержащие необходимые для приема аналоговых сигналов изображения и звука схемы блоков высокой и промежуточной частот, демодуляции, декодирования сигналов цветности и воспроизведения принятого телевизионного изображения синхронно с разверткой монитора ПК известны уже относительно давно. Для приема сигналов цифрового телевидения такие устройства должны дополнительно содержать узлы для де­кодирования, дескремблирования и т.д. (см. рис. 6.1).

В 1997 г. лидеры в сфере производства компьютеров и про­граммного обеспечения для них фирмы Microsoft, Intel и Compaq (США) выступили с проектом, получившим название DVT (Digital Video Team). Суть проекта заключается в организации массового выпуска специальных плат для приема и декодирования сигналов цифрового телевидения и воспроизведения телевизионных изо­бражений с нормальной четкостью для уже существующих ком­пьютеров и установки этих узлов на системных платах новых мо­делей компьютеров, чтобы практически каждый компьютер мог использоваться в качестве приемника цифрового телевидения. При этом часть функций по декодированию данных может выполнять­ся программно, что позволит упростить аппаратную часть.

Одна из целей, намеченных в проекте DVT, это обеспечение возможности передачи и приема телевизионных программ по ком­пьютерным сетям. Применение компьютера позволит значительно расширить возможности интерактивных телевизионных систем, в которых информация идет не только к зрителю, но и от него на телевизионную студию. Абоненты компьютерных сетей смогут получать не только тексты и неподвижные изображения, но и движущиеся изображения нормального вещательного качества со звуковым сопровождением. Это даст возможность смотреть фильмы, записанные в серверах сети, получать полноэкранные учебные, рекламные, спортивные и другие программы.

Следует отметить, что параметры изображения на экране монитора компьютера не совсем эквивалентны параметрам изо­бражения на экране обычного телевизионного приемника. Размеры экрана монитора, как правило, меньше, чем у телевизора, так как

монитор рассчитан на положение оператора на небольшом рас­стоянии. В мониторах компьютеров применяется прогрессивная развертка. Поэтому необходимо преобразование передаваемых с чересстрочной разверткой телевизионных изображений. Наконец, количества строк и элементов основных графических стандартов VGA и SVGA не соответствуют этим параметрам телевизионных изображений. В силу этих и ряда других причин полная замена телевизоров на компьютере вряд ли произойдет, но определенная часть телезрителей видимо будет использовать компьютер для приема телевизионных программ по различным каналам связи.

Другой вариант совмещения функций телевизионного при­емника и абонентского устройства Интернет заключается в допол­нении обычного телевизионного приемника не только декоди­рующим устройством MPEG-2, но и клавиатурой и микропроцес­сором для обеспечения работы в Сети. При этом клавиатура должна быть связана с телевизионным приемником по беспровод­ному каналу, например, с помощью ИК-лучей, чтобы пользователь мог свободно выбирать удобное место для работы на достаточном расстоянии от телевизионного экрана.

Таким образом, происходит постепенное сближение тради­ционного телевизионного вещания с компьютерными информаци­онными сетями.

 

6.5. Перспективы развития цифрового телевидения

 

ПРОЕКТ MPEG-7

Широкое распространение компьютеров и Интернет, а с другой стороны - бытовых видеокамер и другой видеотехники привело к тому, что производство и распространение аудиовизу­альной информации становятся доступными массовому пользова­телю. В результате каждый день в мире производится огромный объем такой информации и задача ее идентификации и поиска в Интернет стала актуальной.

Для решения этой задачи группа MPEG в 1996 г. начала ра­боту над проектом "Интерфейс описания мультимедийного содер­жания" (Multimedia Content Description Interface), известного сей­час как MPEG-7.  По плану проект международного стандарта

должен быть готов к июлю 2001 г., а утвержден - в сентябре 2001 г. [26]

MPEG-7 направлен на создание средств описания содержа­ния видео- и аудиофайлов, т. е. на решение совсем другой задачи, чем предыдущие стандарты группы MPEG. Эти средства должны быть стандартизированы для различных типов аудиовизуальной информации, включая любые неподвижные и движущиеся изо­бражения, речь, музыку, графику, 3-мерные модели и синтезиро­ванные звуки, независимо от формата представления.

Между MPEG-7 и MPEG-4 имеется связь, так как описание содержания аудиовизуальной информации будет основано на по­нятиях аудиовизуальных объектов и состоящих из них сцен. В MPEG-4 есть возможность задавать описание для каждого объ­екта, a MPEG-7 даст правила построения таких описаний.

Основные понятия MPEG-7:

1. Дескриптор (Descriptor - описатель) - описание объекта.

2.  Схема описания (Description Scheme) - структура, содер­жащая описания отдельных объектов и взаимосвязей между ними.

3.    Язык    определения    описаний    (Description   Definition Language - DDL) - язык, с помощью которого составляются схемы описаний.

Непосредственно в стандарте будут содержаться DDL, набор дескрипторов объектов и набор схем описаний. С помощью DDL можно будет составлять новые описания сцен, используя как деск­рипторы, определенные в стандарте, так и вновь создаваемые по заданным правилам.

Содержание одной и той же аудиовизуальной информации может быть описано на разных уровнях детальности, начиная с низкого уровня (цвет, форма, текстура, положение визуальных объектов, высота тона, громкость, темп, положение звуковых объ­ектов и т. п.), и заканчивая высоким уровнем, на котором описание может быть задано в виде обычного текста на естественном языке (семантическое описание), например, "Сцена, в которой присутст­вуют четверо молодых мужчин в черных пиджаках без воротни­ков, с темными волосами, закрывающими лицо почти до глаз. Трое играют на гитарах и поют, четвертый стучит по барабанам...".

Кроме того, описание должно включать сведения об авторах аудиовизуального материала, дате его создания, условиях доступа, формате записи или кодирования и т.п. Поиск аудиовизуальной информации будет осуществляться путем составления запроса, содержащего набор ключевых деск­рипторов, так же как сейчас осуществляется поиск текстов по ключевым словам. Примеры возможных вариантов такого поиска:

- задав несколько нот, получить список музыкальных произ­ведений, которые содержат такую последовательность;

- нарисовав несколько линий на экране, получить список ри­сунков содержащих данный фрагмент;

-  задав форму и текстуру объекта, получить список содер­жащих его изображений,, а добавив сведения о движении, полу­чить список подходящих видеопрограмм;

-  задав образец голоса певца, получить список аудио- и ви­деофайлов, содержащих его записи.

Чтобы аудиовизуальная информация могла быть найдена, для нее необходимо предварительно составить описание. Эта про­цедура включает выделение объектов и их характеристик, созда­ние дескрипторов, отсутствующих в стандартном наборе и состав­ление схемы описания на языке DDL. Перечисленные операции могут выполняться вручную, полуавтоматически или автоматиче­ски, причем, чем выше уровень абстракции описания, тем труднее автоматизировать его составление. Описание может затем хра­ниться вместе с аудиовизуальной информацией, для которой оно составлено, или отдельно, например, в специальных базах данных.

Отметим, что стандарт MPEG-7 не будет содержать сред­ства выделения объектов и их характеристик, средства полуавто­матического или автоматического составления описаний, правила построения баз данных для описаний и средства выполнения по­иска. Как уже указывалось, основное его содержание - язык DDL.

Может возникнуть вопрос, а какое отношение имеет буду­щий стандарт MPEG-7 к телевидению? Ответ: MPEG-7 станет мощным средством поиска интересующих пользователя видеопро­грамм в Интернет, а также в видеотеках и архивах систем интерак­тивного телевидения.

 

ТВЧ, СТЕРЕО-ТВ, ЧТО ДАЛЬШЕ?

 

Одним из важнейших достижений в области телевидения самого последнего времени стало принятие Рекомендации ITU-R ВТ-709-3, которая определяет единый формат для телевидения высокой четкости (ТВЧ) и производства видеопрограмм. Основные параметры этого формата:

- формат кадра 16:9;

-  число активных (видимых на экране) элементов изображе­ния в строке 1920;

- полное число строк 1125, из них активных - 1080;

-  частота кадров 24, 25 или 30 Гц при чересстрочной раз­вертке, частота полей при чересстрочной развертке или частота кадров при прогрессивной развертке 50 или 60 Гц.

Новый единый формат обеспечит международный обмен те­левизионными передачами и производство кинофильмов путем видеозаписи (электронный кинематограф).

В США быстрыми темпами разворачивается ТВЧ-вещание. Параметры изображения соответствуют указанной выше Рекомен­дации. Сжатие изображения осуществляется по стандарту MPEG-2 до    номинальной    скорости     передачи    двоичных    символов 18,9 Мбит/с. Сжатие звука выполняется по стандарту Долби АС-3 до номинальной скорости передачи двоичных символов 384 кбит/с при 5,1-канальном звуке. Транспортный поток основан на стандар­те MPEG-2 и включает дополнительные пакеты с различной ин­формацией. Передача транспортного потока по наземным (эфир­ным) каналам связи с шириной полосы 6 МГц осуществляется с применением     решетчатого     канального     кодирования     и     8-позиционной АМн с частичным подавлением одной боковой поло­сы (8-VSB modulation). Для передачи по кабельным каналам с ши­риной полосы 6 МГц применяется 16-позиционная АМн (16-VSB). Развитие ТВЧ в Европе происходит в рамках проекта DVB. Следующим шагом развития телевидения может быть пере­ход к стереотелевидению, в котором правый и левый глаза зрите­ля получают, соответственно, правое и левое изображения стерео­пары, и у зрителя возникает ощущение объемности наблюдаемого изображения. Стерео-ТВ требует передачи двух видеосигналов.

Далее возможен и переход к многоракурсному телевидению, в котором наблюдаемое зрителем изображение зависит от положения зрителя относительно воспроизводящего устройства. Для реализа­ции такой системы необходимо передавать информацию о вариан­тах изображений, наблюдаемых при разных положениях зрителя.

Современное развитие цифрового телевидения делают впол­не возможной передачу сигналов стерео-ТВ и даже многоракурсного ТВ по обычным каналам ТВ-вещания. Основные проблемы внедрения стерео-ТВ лежат в области создания удобных в экс­плуатации и доступных по цене устройств отображения.

 

ЦИФРОВОЕ ТЕЛЕВИДЕНИЕ В РОССИИ

 

В 1999 г. Госкомсвязи Российской Федерации одобрил "Концепцию внедрения цифровых наземных систем звукового и телевизионного вещания в России" [27]. В основе концепции ле­жит принцип создания в сетях вещания интегрированного транс­портного потока для передачи как вещательных программ, так и мультимедийной и другой информации.

Внедрение цифрового телевидения в России предполагается осуществить в два этапа. На первом этапе создаются несколько опытных участков со смешанным (аналоговым и цифровым) ве­щанием для практической проверки и выбора методов и парамет­ров. Результатом первого этапа должны стать адаптация междуна­родных стандартов к условиям России и выработка временных норм на цифровое вещание.

На втором этапе должны быть утверждены стандарты на цифровое ТВ- и звуковое вещание, после чего может начаться их массовое внедрение.

 

Контрольные вопросы

1. Какие стандарты, помимо MPEG-2, лежат в основе системы DVB?

2. Какие виды модуляции используются в DVB-C и DVB-S?

3. Что затрудняет развитие наземного цифрового ТВ-вещания?

4.  От чего зависит скорость передачи двоичных символов полезной ин­формации в канале DVB-T?

5. Что такое одночастотная сеть цифрового ТВ-вещания?

6. Что такое "Сотовое телевидение"?

7. Что нового могут цифровые методы дать прикладному телевидению?

8.  Какие преимущества обеспечивает нелинейный монтаж по сравнению с линейным?

9. Для чего могут использоваться видеосерверы?

10.  Какими способами могут быть организованы обратные каналы в сис­темах интерактивного ТВ?

11. Для чего могут быть полезны кабельные модемы?

12. Что является основным содержанием проекта MPEG-7?

13.  Назовите основные параметры единого формата ТВЧ.

 

Словарь терминов и сокращений

 

Адаптивное распределение битов (англ. adaptive bit allocation) - распре­деление битов при квантовании, например, по частотным поддиапазонам, выполняемое в зависимости от параметров кодируемого фрагмента сиг­нала. (§ 4.2.2 и 4.4)

АДИКМ - адаптивная дифференциальная импульсно-кодовая модуляция (англ. ADPCM). Разновидность ДИКМ, в которой шаг квантования и па­раметры предсказания изменяются в зависимости от текущих свойств кодируемого сигнала. (§ 3.5)

Амплитудная манипуляция (АМн) - один из видов модуляции, приме­няемый при передачи цифровых сигналов. Заключается в дискретном изменении амплитуды несущей. (§ 5.3)

Арифметическое кодирование - один из видов кодирования с перемен­ной длиной кодовых слов. Теоретически обеспечивает достижение наи­большей эффективности кодирования без потерь. АЦП - аналого-цифровой преобразователь.

БИХ-фильтр - фильтр с бесконечной импульсной характеристикой. То же, что рекурсивный цифровой фильтр. (§ 3.2)

БПФ - быстрое преобразование Фурье. Так называются алгоритмы уско­ренного выполнения ДПФ. (§ 3.1)

Вектор движения (Вектор смещения) - пара чисел, выражающих най­денные в результате оценки движения смещения блока изображения по двум пространственным координатам. (§ 3.4 и 4.2.1)

Векторное квантование - замена группы отсчетов сигнала или группы элементов изображения на наиболее близкую по заданному критерию группу отсчетов (элементов), называемую эталонным вектором. Все эта­лонные векторы предварительно занесены в кодовую книгу. (§ 3.6)

Видеоконференцсвязь - система видеосвязи, обеспечивающая обмен в реальном времени видеоинформацией и звуком между несколькими абонентами. (§ 6.2)

Видео по заказу (англ. Video-on-Demand) - один из новых видов систем ТВ-вещания, в которых абонент может заказать передаваемую програм­му. (§ 6.4)

Видеопоследовательность (video sequence) - самая крупная структурная единица потока видеоданных MPEG-1, MPEG-2. Встречается также на­звание "видеоряд".

Видеосервер - устройство на базе компьютера для хранения и воспроиз­ведения аудиовизуальной информации. С видеосервера производится передача ТВ-программ. (§ 6.4)

Видеостык - название интерфейсов для передачи цифровых ТВ-сигналов в соответствии с Рекомендацией ITU-R ВТ 601, в которой определены параллельный видеостык и последовательный видеостык. (§ 2.2)

Видеотелефон - один из видов видеосвязи, обеспечивающий обмен в реальном времени видеоинформацией и звуком между двумя абонента­ми. (§ 6.2)

Внутрикадровое кодирование (англ. intraframe) - сжатие видеоинфор­мации в одном отдельно взятом кадре, основанное на уменьшение внут-рикадровой избыточности. (§ 4.2)

Вэйвлет-преобразование - ортогональное одномерное или двумерное преобразование, в результате которого исходный сигнал разделяется на составляющую с низкой разрешающей способностью и составляющую с высокой разрешающей способностью. (§ 3.3)

Гамма-коррекция - нелинейное преобразование телевизионных сигна­лов, выполняемое с целью коррекции нелинейностей передаточных ха­рактеристик различных узлов телевизионной системы, например, кине­скопа. Одновременно гамма-коррекция способствует уменьшению влия­ния квантования на качество изображения. (§2.1, 2.2) Гибридное кодирование - метод кодирования движущихся изображе­ний, используемый в MPEG-1, MPEG-2, MPEG-4 и сочетающий внутри-кадровое и межкадровое кодирование. (§ 4.2)

Головная станция - станция, с которой ведется вещание в системах кабельного ТВ, интерактивного ТВ и т. д.

Деквантование - операция, обратная квантованию. В результате декван-тования увеличивается число уровней квантования, которыми представ­ляются значения отсчетов цифрового сигнала или другой информации.

Декодер - устройство, в котором выполняется декодирование.

Декодирование - операция, обратная кодированию. В результате деко­дирования информация преобразуется к виду, который она имела до соответствующего кодирования. Декомпрессия - операция, обратная компрессии.

Дематрицирование - операция, обратная матрицированию. Исходные сигналы вычисляются как суммы взятых с определенными коэффициен­тами сигналов, полученных при матрицировании.                                     

Демодуляция - операция, обратная модуляции. В результате демодуляции  (часто  называемой детектированием)  восстанавливается  модулирующий сигнал.                                                                                         Дескремблирование - операция, обратная скремблировананию. Восста­новление исходного порядка следования информации.

Децимация - см. Прореживание.

ДИКМ - дифференциальная импульсно-кодовая модуляция (англ. DPCM). Также называют "Кодирование с предсказанием". Вид ИКМ, в котором на основе значений одного или нескольких предшествующих отсчетов сигнала формируется предсказанное значение текущего отсчета, а по каналу связи передается ошибка предсказания - разность истинного и предсказанного значений текущего отсчета сигнала. (§ 3.5)

Дискретизация - представление непрерывного сигнала последователь­ностью его значений (отсчетов или выборок), следующих через опреде­ленные интервалы времени. В случае дискретизации изображения, по­следнее представляется матрицей отсчетов, заданным образом располо­женных в плоскости изображения. (§ 2.1, 2.2)

Дискретная частота - частота дискретного сигнала, измеряемая в долях частоты дискретизации. (§ 3.1)

ДКП - дискретное косинусное преобразование. (§ 3.1)

 ДПФ - дискретное преобразование Фурье. (§ 3.1)

Заголовок (англ. header) - начальная часть структурной единицы потока данных. Как правило содержит синхрогруппу - один или более символов, по которым начало заголовка можно распознать в потоке данных.

Иерархическая    модуляция    -    способ    модуляции,    применяемый в DVB-T. Более важная для получения устойчивого изображения инфор­мация передается с более высокой помехозащищенностью. (§6.1)

Избыточность изображения - наличие в изображении составляющих, которые могут быть отброшены без существенного ухудшения визуально воспринимаемого качества воспроизводимого изображения. (§ 2.4)

ИКМ - импульсно-кодовая модуляция (англ. РСМ). Способ передачи информации в цифровой форме. Цифровой код каждого отсчета сигнала передается по каналу связи в виде последовательности импульсов.

Интерактивное телевидение - ТВ-системы, в которых зритель может воздействовать на получаемую им программу, передавая сигналы по об­ратному каналу на головную станцию. (§ 4.3, 6.4)

Интерполяция - 1) преобразование дискретного сигнала в непрерывный, путем заполнения по определенному правилу промежутков времени (или в случае изображений - пространства) между отсчетами дискретного сигнала; 2) увеличение количества отсчетов дискретного сигнала путем введения между отсчетами исходного дискретного сигнала дополнитель­ных отсчетов, значения которых определяются по заданным правилам. (§2.1,3.3)

Кабельный модем - модем, с помощью которого компьютер подключа­ется к сети кабельного ТВ, что обеспечивает высокую скорость передачи данных. (§ 6.4)

Кадр - 1) в телевидении кадрами называются передаваемые и воспроиз­водимые одно за другим неподвижные изображения. Если частота пере­дачи кадров достаточно велика, зритель воспринимает наблюдаемое изо­бражение как непрерывно движущееся. При передаче кадры расклады­ваются на строки; 2) во многих случаях кадрами называют структурные единицы потока данных, например, звуковые кадры.

Кадровое кодирование - один из режимов кодирования видеоинформа­ции с чересстрочной разверткой в стандартах MPEG-1, MPEG-2. В этом режиме в каждый макроблок входят элементы изображения из обоих по­лей кадра. (§ 4.2.1)

Канальное кодирование - кодирование, выполняемое непосредственно перед передачей информации по каналу связи, часто совмещаемое с мо­дуляцией. Обычно имеет целью повышение помехоустойчивости, исклю­чение идущих слишком много раз подряд символов "1" или "О" и т. д. (§5.2,5.3,6.1)

Квадратурная амплитудная манипуляция (КАМн) - один из видов модуляции, применяемый при передачи цифровых сигналов. Дискретно изменяются амплитуды двух квадратурных составляющих (cos и sin) не­сущей. (§ 5.3)

Квантование - 1) преобразование непрерывного или дискретного сигна­ла путем округления каждого его значения до ближайшего уровня кван­тования; 2) при квантовании сигнала, уже представленного в цифровой форме, может уменьшаться количество битов на каждый отсчет сигнала.

КЗФ - квадратурные зеркальные фильтры (англ. - QMF). Пара цифровых фильтров, имеющих взаимно-зеркальные АЧХ. Пара КЗФ позволяет раз­делить исходный цифровой сигнал на два сигнала частотных поддиапа­зонов, соответствующих нижней и верхней половинам его полосы частот, а пара обратных фильтров позволяет восстановить исходный сигнал по двум сигналам частотных поддиапазонов. (§ 3.3)

КИХ-фильтр - фильтр с конечной импульсной характеристикой. То же, что нерекурсивный цифровой фильтр. (§ 3.2)

Кодек - устройство, которое может выполнять как функции кодера, так и функции декодера.

Кодер - устройство, в котором выполняется кодирование.

Кодирование - 1) представление результата квантования каждого отсче­та дискретизированного сигнала двоичным числом по определенному правилу; 2) преобразование информации с какой-либо целью путем заме­ны групп символов на другие группы символов по определенным прави­лам. Целями кодирования могут быть сокращение избыточности или сжатие информации, повышение помехоустойчивости, защита информа­ции от доступа нежелательных лиц и т. д.

Кодирование по Хаффмену - вариант кодирования с переменной дли­ной кодовых слов. Основан на алгоритме построения кодовой таблицы для кодирования данных с известными вероятностями появления всех символов. Обеспечивает высокую эффективность кодирования переда­ваемой информации.

Кодирование с переменной длиной кодовых слов (Кодирование сло­вами переменной длины, англ. VLC) - энтропийное кодирование. Уменьшение объема передаваемой информации достигается за счет того, что более вероятные символы представляются более короткими кодовы­ми словами.

Кодирование с предсказанием - си.ДИКМ.

Кодовая книга - перечень всех эталонных векторов, используемых при векторном квантовании. (§ 3.6)

Коды Рида-Соломона - корректирующие коды, применяемые, в частно­сти, в системах цифрового ТВ. (§ 5.2, 6.1)

Компенсация движения - формирование изображения из блоков (фраг­ментов, макроблоков) другого (опорного) изображения, путем их смеще­ний. Указанные смещения определяются векторами движения, найден­ными в результате оценки движения. Компенсация движения использует­ся при формировании предсказанных изображений в стандартах MPEG-1, MPEG-2, MPEG-4. (§ 3.4, 4.2.1, 4.3)

Композитное кодирование - преобразование ПЦТС в цифровую форму.

(§ 2.3)

Компонентное кодирование - раздельное преобразование яркостного и цветоразностных сигналов в цифровую форму. (§ 2.2, 2.3)

Компрессия - 1) сжатие информации путем эффективного кодирования, отбрасывания несущественных частей информации и т. д.; 2) сжатие ди­намического диапазона сигнала с помощью нелинейного преобразования.

Корректирующие коды - коды, позволяющие обнаруживать и/или ис­правлять ошибки, возникающие ири передаче информации. (§ 5.2)

 ЛВС - локальная вычислительная сеть.

Линейное предсказание (англ. Linear Prediction) - формирование пред­сказанного значения сигнала (см. ДИКМ) в виде линейной комбинации нескольких предыдущих значений. (§ 3.5)

Макроблок - прямоугольная область изображения размером 16x16 пик­селов, являющаяся основной структурной единицей кодирования изо­бражений в стандартах MPEG-1, MPEG-2 и др. Для макроблоков выпол­няются оценка и компенсация движения. (§ 4.2.1)

Маскирование звука - свойство слуха, используемое в MPEG-1, MPEG-2 Audio и Долби АС-3. При наличии громкого звука с какой-либо часто-той, более тихие звуки на близких частотах оказываются неслышимыми, то есть маскируются. (§ 4.2.2, 4.4)

Маскирование ошибки - замена группы символов, в которой обнаруже­на ошибка, на ранее принятую без ошибки группу символов. (§ 5.2)

Масштабируемость (англ. Scalability) - свойство методов кодирования и синтаксиса потока данных MPEG-2, позволяющее получать изображение с неполным качеством, например, с уменьшенной разрешающей способ­ностью, из части потока видеоданных. В MPEG-4 свойство масштаби­руемости распространено и на звуковое сопровождение. (§ 4.2.1, 4.3)

Матрицирование - формирование нескольких выходных сигналов в ви­де сумм нескольких входных сигналов, взятых с заданными коэффициен­тами.

МДКП - модифицированное дискретное косинусное преобразование. Разновидность ДКП. Используется в Долби АС-3 и MPEG-1, MPEG-2 Audio, Layer

III. (§ 4.2.2, 4.4)

Медианная фильтрация - отсчет выходного сигнала определяется как медиана распределения значений нескольких отсчетов входного сигнала. Медианная фильтрация может быть как одномерная, так и двумерная, то есть пространственная. (§ 3.2)

Межкадровое кодирование (англ. interframe) - сжатие видеоинформа­ции, основанное на использование межкадровой корреляции. (§ 4.2)

МККР - Международный консультативный комитет по радиосвязи. Ны­не называется ITU-R.

МККТТ - Международный консультативный комитет по телеграфии и телефонии. Ныне называется ITU-T.

Модем - устройство, в котором выполняются модуляции и демодуляция.

Модуляция - изменение одного или нескольких параметров электриче­ского сигнала, называемого несущим колебанием или просто несущей, в соответствии со значениями модулирующего сигнала.

 Нелинейный монтаж - метод монтажа видеоматериалов, при котором монтируемые материалы находятся в ЗУ компьютера, и оператор имеет произвольный доступ к любому кадру. (§ 6.4)

Нерекурсивный цифровой фильтр - цифровой фильтр, в котором зна­чение формируемого отсчета выходного сигнала зависит только от зна­чений отсчетов входного сигнала. (§ 3.2)

Объект - Основное понятие объектно-ориентированного подхода. В MPEG-4 и MPEG-7 используются понятия видеообъекта, которым мо­жет быть выделенный по какому-либо признаку фрагмент изображения или целое изображение, аудиообъекта, которым могут быть звуки, созда­ваемые одним источником, аудиовизуального объекта, в котором объе­диняются видеообъект и аудиообъект. (§ 4.3, 6.5)

Одночастотная сеть (Single Frequency Network - SFN) - один из вариан­тов вещания в DVB-T. Синхронная работа на одной частоте нескольких ТВ-передатчиков, области приема сигналов которых перекрываются. (§6.1)

Опорное изображение (Reference Picture) - кадр или поле, по которому выполняется предсказание с компенсацией движения макроблоков коди­руемого изображения. (§ 4.2.1)

Оценка движения - определение смещений отдельных блоков, элемен­тов, фрагментов изображения относительно их положений в другом (опорном) изображении. Найденное смещение выражается вектором движения. По результатам оценки движения может выполняться компен­сация движения. (§ 3.4)

Ошибка предсказания - разность предсказанного и действительного значений сигнала. При кодировании изображений ошибкой предсказания фрагмента (макроблока) изображения может быть матрица чисел, каж­дый элемент которой равен разности значений сигналов соответствую­щих элементов предсказанного и действительного фрагментов. (§ 3.5, 4.2.1)

Пакет - структурная единица потока данных, представляющая собой группу информационных символов (битов, байтов и т. д..), передаваемых совместно по каналам связи. Как правило, пакет имеет заголовок, содер­жащий сведения о нем.

Пакетные ошибки - ошибки, поражающие несколько соседних симво­лов (битов) передаваемой информации. (§5.1)

Пиксел (или пиксель) (от англ. pixel) - элемент дискретного изображе­ния, яркость и цветность в пределах которого постоянны.

 ПК - персональный компьютер.

Поле - полукадр при чересстрочной развертке, содержащий нечетные строки кадра (первое поле) или четные строки кадра (второе поле). Поле передается и воспроизводится за один период вертикальной развертки телевизора.

Полевое кодирование - один из режимов кодирования видеоинформа­ции с чересстрочной разверткой в стандартах MPEG-1, MPEG-2. В этом режиме макроблок состоит из элементов изображения только первого или только второго поля. (§ 4.2.1)

Поток данных (англ. bitstream) - последовательность двоичных симво­лов, передаваемых по каналу связи или записываемых на носитель ин­формации. Состоит из структурных единиц (пакетов, кадров и т. д.), снабженных заголовками.

Преобразование Хаара - один из видов вэйвлет-преобразования. (§ 3.3)

Программный поток (Program Stream) - один из видов мультиплексиро­ванного (объединенного) потока данных MPEG-2, аналогичный систем­ному уровню MPEG-1. В отличие от Транспортного потока, переносит данные только одной ТВ-программы. (§ 4.2.3)

Прогрессивная развертка - вариант развертки, при котором все строки кадра передаются последовательно одна за другой.

Пропущенный макроблок (англ. skipped) - макроблок, который не пе­редается, так как совпадает с соответствующим макроблоком опорного изображения. (§ 4.2.1)

Прореживание - уменьшение количества отсчетов цифрового сигнала. В результате прореживания оставляют, например, каждый 2-й, или каж­дый 3-й, каждый 4-й и т. д. отсчет, а остальные отбрасывают.

Пространственная фильтрация - преобразование изображения, при котором яркость и цвет каждого элемента формируемого изображения определяются как заданная функция от яркостей и цветов элементов ис­ходного изображения. (§ 3.2)

Пространственная частота (для непрерывных изображений) - величи­на, обратная пространственному периоду. Показывает, сколько периодов изменения какого-либо параметра, например, яркости, укладывается на единицу длины. Размерность м"'. (§ 2.1)

Пространственный (двумерный) фильтр - устройство, с помощью ко­торого выполняется пространственная фильтрация. (§ 3.2)

Профиль - в MPEG2 понятие профиль характеризует сложность исполь­зуемых методов кодирования и наличие масштабируемости. (§ 4.2.1, табл. 4.4)

Психоакустическая модель (ПАМ) - алгоритм, учитывающий свойства слуха, по которому в MPEG-1, MPEG-2 Audio для каждого частотного поддиапазона оценивается маскирование звуками из других поддиапазо­нов и рассчитывается распределение битов для квантования. (§ 4.2.2)

ПЦТС - Полный Цветной Телевизионный Сигнал. Так называется сиг­нал аналогового цветного телевидения, содержащий сигнал яркости, цве-торазностные сигналы на цветовой поднесущей, синхроимпульсы, гася­щие импульсы и др. необходимые компоненты.

Распределение битов (англ. bit allocation) - операция, применяемая во многих методах сжатия изображений и звукового сопровождения. Задан­ное количество двоичных разрядов (битов) при квантовании распределя­ется по нескольким составляющим общего потока данных, например, по частотным поддиапазонам. (§ 4.2.2, 4.4)

Расширение (англ. extension) - в MPEG-2 - части потоков видео и ау­диоданных, содержащие данные, которые дополняют обязательные (ба­зовые) части потоков. (§ 4.2.1, 4.2.2,4.2.3)

Рекомендация 601 - полное название Рекомендация ITU-R ВТ 601. Ста­рое название Рекомендация 601 МККР или CCIR-601. Определяет пара­метры цифрового представления ТВ-сигналов телевидения обычной чет­кости. (§ 2.2)

Рекомендация ITU-R BT-709-3 - документ, определяющий параметры циифрового представления сигналов ТВЧ, общие для Европы, США и Японии. (§ 6.5)

Рекурсивный цифровой фильтр - цифровой фильтр, в котором значе­ние формируемого отсчета выходного сигнала зависит как от значений отсчетов входного сигнала, так и от значений ранее сформированных отсчетов выходного сигнала. (§ 3.2)

Решетчатые коды (trellis code) - корректирующие коды, используемые при канальном кодировании (внутреннее кодирование) в системах циф­рового ТВ. (§ 5.2, 6.1)

Синхроимпульсы - импульсы, входящие в состав полного телевизион­ного сигнала с целью синхронизации разверток в ТВ-приемнике с соот­ветствующими развертками в передающей телевизионной камере. Кадро­вые синхроимпульсы предназначены для синхронизации вертикальной (кадровой) развертки, а строчные синхроимпульсы - для синхронизации горизонтальной (строчной) развертки в телевизионном приемнике. Скорость передачи двоичных символов (англ. bitrate) - число битов информации, передаваемых за секунду. Единицы измерения бит/с, кбит/с, Мбит/с и т. д.

Скремблирование - перестановка битов, байтов или более крупных блоков передаваемой информации для защиты от пакетных ошибок. Ис­пользуется также для защиты информации от несанкционированного доступа. (§ 5.1, 6.1)

Слайс (англ. slice) - группа следующих один за другим в процессе коди­рования макроблоков. Для всех макроблоков слайса задается одинаковый параметр сжатия, который записывается в заголовок слайса. (§ 4.2.1)

Соответствие блоков (англ. block matching) - один из методов оценки движения, в соответствии с которым для каждого блока (макроблока) кодируемого изображения находят в опорном изображении наиболее со­ответствующую по выбранному критерию этому блоку область таких же размеров. (§ 3.4, 4.2.1)

Сотовое ТВ - системы ТВ-вещания СВЧ-диапазона, например MMDS, в которых используется сеть маломощных передатчиков. (§ 6.1)

Строка - часть кадра, обычно представляющая собой горизонтальную или слегка наклонную узкую полосу передаваемого изображения. В про­цессе передачи кадра строки передаются одна за другой.

Сцена - одно из понятий MPEG-4. Совокупность аудиовизуальных объ­ектов, наблюдаемых и слышимых зрителем. (§ 4.3)

ТВЧ - телевидение высокой четкости. (§ 6.5)

Текстура — мелкая структура изображения. Заполнение контуров объек­тов, предметов и т. д.

Транспортный поток (англ. Transport Stream - TS) - мультиплексиро­ванный (объединенный) поток данных MPEG-2, состоящий из транс­портных пакетов и объединяющий данные нескольких телевизионных программ и служебную информацию. (§ 4.2.3)

Уровень (англ. - Layer) - в MPEG-'l, MPEG2 Audio определены три уровня кодирования звукового сопровождения: Layer I, Layer II, Layer HI. (§ 4.2.2)

Уровень (англ. level) - в MPEG-2 определены уровни по разрешающей способности изображения. (§ 4.2.1, табл.4.4)

Фазовая манипуляция (ФМн) - один из видов модуляции, применяе­мый при передаче цифровых сигналов. Заключается в дискретном изме­нении фазы несущей. (§ 5.3) ЦАП - цифроаналоговый преобразователь.

Цветовая поднесущая - частота, на которую с помощью модуляции пе­реносятся цветоразностные сигналы при формировании ПЦТС в систе­мах аналогового цветного телевидения.

Цветоразностные сигналы - сигналы в цветном телевидении, несущие информацию о цвете и не влияющие на яркость изображения. Определя­ются формулами:

Цифровой фильтр - устройство, преобразующее последовательность отсчетов входного цифрового сигнала в последовательность отсчетов выходного цифрового сигнала. (§ 3.2)

ЦПОС - цифровой процессор обработки сигналов (англ. - DSP).

Частота дискретизации - величина, обратная периоду следования от­счетов дискретного сигнала. В соответствии с теоремой Котельникова частота дискретизации должна по меньшей мере в два раза превышать верхнюю граничную частоту дискретизируемого сигнала. (§ 2.1)

Чересстрочная развертка - вариант развертки, при котором сначала передаются все нечетные строки кадра, составляющие первое поле, а по­том - все четные строки кадра, составляющие второе поле. Чересстроч­ная развертка применяется во всех широко используемых системах ТВ-вещания, так как позволяет увеличить в два раза частоту вертикальной развертки в ТВ-приемнике при заданной частоте передачи кадров.

Шум квантования - ошибка, возникающая в результате квантования сигнала или вообще всякой информации. Элемент изображения - см. Пиксел.

Элементарный поток (англ. Elementary Stream - ES) - поток данных на выходе кодера изображения или кодера звука. Элементарные потоки объ­единяются (мультиплексируются) в мультиплексированные потоки, на­пример, в транспортный поток MPEG-2. (§ 4.2.3, 4.3)

Энтропийное кодирование - кодирование информации, позволяющее уменьшить ее объем без необратимых потерь. Основано на использова­нии статистических свойств источника сообщения, например, распреде­ления вероятностей появления различных символов, слов и т. п. (См. также Кодирование с переменной длиной кодовых слов.) Яркостный сигнал (сигнал яркости) - сигнал, несущий информацию о яркости всех элементов изображения и соответствующий видеосигналу черно-белого телевидения. В цветном телевидении яркостный сигнал формируется из прошедших гамма-коррекцию сигналов основных цветов E'r (красный), Е'с, (зеленый), Е'ц (синий) в соответствии с формулой

 

AC-3 (Dolby AC-3) - Стандарт сжатия многоканального звука. Использу­ется, в частности, в системе цифрового ТВ ATSC. (§ 4.4)

Adaptive bit allocation - см. Адаптивное распределение битов.

ADPCM - Adaptive Differential Pulce Code Modulation. См. АДИКМ.

ATM (Asynchronous Transfer Mode - Асинхронный режим передачи) -метод передачи в широкополосных цифровых сетях. Обеспечивает высо­кую пропускную способность. (§ 6.2)

ATSC (Advanced Television Systems Committee - Комитет по усовершен­ствованным системам телевидения) - система цифрового ТВ-вещания, принятая в США. (§ 6.1)

BER (Bit Error Rate) - частота ошибок на 1 бит передаваемой информа­ции. (§5.1)

Bit allocation - см. Распределение битов.

B-frame (В-кадр) - от Bidirectional - двунаправленный. Кадр, макроблоки которого могут кодироваться с предсказанием по двум опорным изображениям, одно из которых следует до кодируемого В-кадра, а другое —после. (§ 4.2.1)

Block matching - см. Соответствие блоков.

CCIR - Comite Consultativ International de Radio. - см. MKKP, ITU-R.

CCIR-601 - см. Рекомендация 601.

CCITT - Comite Consultatif International de Telegraphique et Telephoniqu. См. МККТТ, ITU-T.

CELP (Code Excited Linear Predictive - кодирование возбуждений с ли­нейным предсказанием) - метод сжатия речи, обеспечивающий скорости передачи 6...24 кбит/с при частотах дискретизации 8 кГц или 16 кГц.

CIF   (Common   Intermediate   Format)   -   формат   кадра,   содержащий 288 строк по 352 элемента в строке для сигнала яркости и 176 строк по 144 элемента в строке для каждого из цветоразностных сигналов. (§ 2.3)

COFDM (Coded Orthogonal Frequency Division Multiplex) - OFDM, со­вмещенная с канальным кодированием. (§ 5.3, 6.1)

Content-based coding - кодирование, основанное на содержании. Один из вариантов кодирования изображений в MPEG-4, в котором могут ко­дироваться объекты сложной формы. (§ 4.3)

 D-box - см. Set-Top-Box.

DCT- см. ДКП.

DMIF (Delivery Multimedia Integration Framework - интегрированная сис­тема доставки мультимедиа) - протокол, обеспечивающий управление потоками данных в MPEG-4. (§ 4.3) DPCM (Differencial Pulce Code Modulation) - см. ДИКМ.

DVB (Digital Video Broadcasting - Цифровое видеовещание) - система цифрового телевидения,  развиваемая  в  Европе.  Включает кабельное (DVB-C), спутниковое (DVB-S), наземное (DVB-T), а в перспективе и другие виды ТВ-вещания. (§ 6.1)

DVD (Digital Versatile Disk - Цифровой многосторонний диск. Встреча­ется также расшифровка Digital Video Disk) - новый вид оптических дис­ков, предназначенных, в частности, для записи видеопрограмм обычной четкости (704x576), сжатых по MPEG-2.

DVT (Digital Video Team) - проект фирм Microsoft, Intel и Compaq (США),   объявленный   в   1997   г.   и  направленный  на  использование компьютера в качестве ТВ-приемников. (§ 6.4)

 Elementary Stream (ES) - см. Элементарный поток.

Extension - см. Расширение.

Field - см. Поле.

Frame - см. Кадр.

G.711, G.721, G.722, G.726, G.728, G.729 - Рекомендации ITU-T, описы­вающие методы сжатия речи для систем связи, в том числе и видеосвязи. (§ 4.4)

GOP (Group of Pictures) - группа изображений. В MPEG-1, MPEG-2 -группа следующих друг за другом изображений (кадров или полей), на­чинающаяся с 1-кадра. (§ 4.2.1)

Н.261, Н.262, Н.263 - рекомендации ITU-T, описывающие методы коди­рования видеоинформации для систем видеосвязи. (§ 4.4)

 Н.320, Н.321, Н.322, Н.323, Н.324 - рекомендации ITU-T, описывающие построение систем видеосвязи. (§ 6.2)

HDTV (High-Definition Television) - телевидение высокого разрешения. См. ТВЧ.

I-frame (I-кадр) (от Intraframe - внутрикадровый) - кадр, с которого на­чинается GOP в стандартах MPEG-1, MPEG-2. Все макроблоки 1-кадра кодируются внутрикадровым методом. (§ 4.2.1)

ISDN (Integrated Services Digital Network - цифровые сети интегрирован­ного сервиса) - вид цифровых сетей связи с коммутацией каналов. (§ 6.2)

ISO (International Organization for Standartization) - Международная орга­низация по стандартизации. Основана в 1947 г., включает в качестве чле­нов более 100 национальных организаций по стандартизации.

ITU (International Telecommunication Union) - Международный союз электросвязи (МСЭ). Одна из функций этой организации - подготовка Рекомендаций, которые фактически являются международными стандар­тами.

ITU-R - организация - часть ITU, отвечающая за подготовку Рекоменда-.ций в областях радиосвязи и телевидения.

ITU-T - организация - часть ITU, отвечающая за подготовку Рекоменда­ций в областях телефонии и цифровой передачи данных.

JPEG (Joint Photographic Experts Group) - объединенная группа экспертов по фотографии. Рабочая группа ISO, созданная в 1986 г. и занимающаяся разработкой носящих такое же название стандартов кодирования и сжа­тия неподвижных изображений. (§4.1)

JPEG-2000 - Новый проект группы JPEG. Направлен на увеличение сте­пени сжатия и обеспечение сжатия анимированных изображений.

Layer - См. Уровень.

 Level - См. Уровень.

Linear Prediction - См. Линейное предсказание.

Loseless JPEG (JPEG без потерь) - метод сжатия изображений, разрабо­танный группой JPEG и основанный на кодировании с предсказанием. Позволяет получить существенно меньшее сжатие, чем "обычный" JPEG.

LPC (Linear Predictive Coding) - кодирование методом линейного пред­сказания (см. ДИКМ, Линейное предсказание).

MDCT - см. МДКП.

MMDS (Multichannel Microvave Distribution System - Многоканальная система распределения на СВЧ) — см. Сотовое ТВ.

Motion JPEG - метод сжатия движущихся изображений, в котором каж­дый кадр сжимается методом JPEG независимо от других кадров. Используется, в частности, в системах видеомонтажа. (§4.1, 6.4)

MPEG (Moving Picture Expert Group) - группа экспертов по движущимся изображениям. Рабочая группа ISO, ванимающаяся разработкой стандар­тов кодирования и сжатия видео- и аудиоданных. Название группы при­сутствует в названиях подготовленных ей стандартов.

MPEG-1 - стандарт сжатия движущихся изображений и звукового со­провождения, утвержденный в 1993 году. В основном используется при записи видеопрограмм формата SIF на лазерные диски, обеспечивая сжа­тие до 1,5 Мбит/с. (§ 4.2)

MPEG-2 - стандарт сжатия движущихся изображений и звукового со­провождения, утвержденный в 1994 г. Является основой современных систем цифрового телевидения. (§ 4.2)

MPEG-3 - проект группы MPEG по сжатию изображений ТВЧ. Вошел в MPEG-2 и ныне отдельно не существует. (§ 4.2.1)

MPEG-4 - стандарт сжатия движущихся изображений и звука. Принят в 1998-1999 годах. В первую очередь направлен на передачу аудиовизу­альной информации по узкополосным каналам связи и на создание инте­рактивных ТВ-систем. (§ 4.3)

MPEG-7 - проект группы MPEG, основная цель которого - стандартиза­ция средств описания содержания видео- и аудиоинформации. Предпо­ложительный срок утверждения стандартов - 2001 год. (§ 6.5)

MUSICAM (Masking Pattern Universal Subband Integrated Coding And Multiplexing) - метод кодирования звуковых сигналов, в значительной степени ставший основой стандарта MPEG-1 в части сжатия звука.

NBC (Nonbackward compatible) - один из вариантов кодирования много­канального (более двух каналов) звука в MPEG-2, не совместимый "на­зад" с MPEG-1. (§ 4.2.2)

NTSC (National Television System Committee) - система цветного телеви­дения, используемая в США, Канаде, Японии и ряде других стран Азии и Америки. Формат кадра 4:3; число строк 525, из них видимых на экране -480, частота кадров 30 Гц, частота полей - 60 Гц, развертка чересстроч­ная. Два цветоразностных сигнала передаются одновременно с помощью квадратурной модуляции цветовой поднесущей, частота которой 3.58 МГц.

OFDM (Orthogonal Frequency Division Multiplex) - ортогональное частот­ное мультиплексирование. Один из видов модуляции, применяемых в системах цифрового ТВ. (§ 5.3, 6.1)

PAL (Phase Alternating Line) - система цветного телевидения используе­мая во многих странах Европы, Китае и других странах. Формат кадра 4:3, число строк 625, из них видимых на экране - 576, частота кадров 25 Гц, частота полей 50 Гц, развертка чересстрочная. Два цветоразност­ных сигнала передаются одновременно с применением квадратурной мо­дуляции цветовой поднесущей, частота которой 4,43 МГц.

PCM (Pulce Code Modulation) - см. ИКМ.

P-frame (Р-кадр) (от Predictive - предсказанный) - кадр, макроблоки ко­торого могут кодироваться с предсказанием по опорному изображению, в качестве которого может использоваться предшествующий I-кадр или Р-кадр. (§4.2.1)

Pixel (Picture element) - элемент изображения. См. Пиксел.

Profile - см. Профиль.

QAM - см. Квадратурная амплитудная манипуляция.

QCIF (Quarter Common Intermediate Format) - формат кадра, составляю­щий 1/4 от формата CIF, т. е. 176x144 элементов сигнала яркости. (§ 2.3)

QMF (Quadrature Mirror Filter) - см. КЗФ.

QPSK (Quadrature Phase Shift Key - квадратурная фазовая манипуляция) - метод модуляции несущей, используемый в системах цифрового ТВ. Основан на дискретном изменении фаз двух квадратурных составляющих (см. также ФМн).

QSIF (Quarter SIF) - формат кадра, составляющий 1/4 от формата SIF. (§ 2.3)

RLC (Runlength Coding) - метод кодирования, при котором идущие под­ряд одинаковые символы сообщения представляются парой чисел, одно из которых показывает количество идущих подряд одинаковых символов, а другое - сам символ. (§ 4.1)

 Scalability - см. Масштабируемость.

Skipped macroblock - см. Пропущенный макроблок.

 SECAM (Sequentiel Coleur A Memoir) - система цветного телевидения, используемая во Франции, странах бывшего СССР, странах восточной Европы и некоторых странах Азии и Африки. Формат кадра 4:3, число строк 625, из них видимых на экране - 576, частота кадров 25 Гц, частота полей 50 Гц, развертка чересстрочная. Два цветоразностных сигнала пе­редаются поочередно, через строку. Применяется частотная модуляция цветовой поднесущей, начальная частота которой 4,406 МГц для красно­го цветоразностного сигнала и 4,250 МГц - для синего.

Set-Top-Box - приставка для приема программ цифрового ТВ. (§ 6.1)

Single Frequency Network (SFN) - см. Одночастотная сеть.

 SIF - 1) Standard Interchange Format. Формат кадра, содержащий 288 строк по 352 элемента изображения в строке или 240 строк по 352 эле­мента изображения в строке; 2) Source Input Format. Формат кадра, со­держащий 240 строк по 320 элементов изображения в строке. (§ 2.3)

SQCIF (Sub-Quarter Common Interchange Format) - формат кадра, содер­жащий 128x96 элементов сигнала яркости. (§ 2.3)

S-Video - стандарт интерфейса телевизионной и видаоаппаратуры, в со­ответствии с которым по отдельным проводам передаются сигнал ярко­сти с синхроимпульсами (Y) и сигнал цветности, т. е. цветовая поднесу-щая, промодулированная цветоразностными сигналами (С). Обозначается также Y/C.

Т.120 - Рекомендация ITU-T, определяющая взаимодействие программ­но-аппаратных средств при обмене данными в системах видеосвязи. (§ 6.2)

Transport Stream (TS) - см. Транспортный поток.

Video-on-Demand - см. Видео по заказу.

VLBV (Very Low Bitrate Video) - уровень очень низкой скорости переда­чи данных в MPEG-4. (§ 4.3)

VLC (Variable Length Coding) - см. Кодирование с переменной длиной кодовых слов.

VSB (Vestigial side band) - амплитудная модуляция с частично подавлен­ной боковой полосой. (§ 6.1) Wavelet-Transform - см. Вэйвлет-преобразование.

4:2:2, 4:2:0 и т.д. - варианты форматов дискретизации яркостного и цветоразностных сигналов. (§ 2.2).

5.1 (или 5,1) - условная запись в методах кодриования многоканального звукового сопровождения, показывающая, чт.е. пять основных каналов звука, и один узкополосный низкочастотный. (§ 4.2.2, 4.4)