ЧАСТЬ 2. РАБОТА С ВИДЕО

 

ГЛАВА 9. КРАТКИЕ СВЕДЕНИЯ О ТЕЛЕВИДЕНИИ [46-49]

 

9.1. Телевизионные системы

 

Политическая карта мира исполосована жирными линиями границ и раскрашена в разные цвета. Особенно заметна чересполосица красок в таких густонаселенных местах, как Европа или же Ближний Восток. Во времена вражды правительства стран соседей старались всячески оградить свое население от «тлетворного» влияния, глуша радиопередачи и делая невозможным прием те­левидения из-за «бугра». Многие преуспели в этом, придумав собственные стандарты, несовместимые с принятыми в других странах. Сыграла свою роль и коммерция - никто ведь не хочет, чтобы его фильмы бесплатно смотрели мил­лионы зрителей другого государства. Так и появилось множество разноликих стандартов — сначала черно-белого, а затем уже цветного телевидения.

 

«Как низко ПАЛ СЕКАМ». Эта шутливая фраза имела популярность во времена, когда в бывший СССР стали из-за границы привозить видеомагнито­фоны и кассеты с записями. Бывало, достанешь редкий фильм на один вечер, подключишь видеомагнитофон к своему старому телевизору, а на экране - только черно-белое кино, причем без звука, а то и вовсе ничего. Так многие наши граждане убеждались, что «железный занавес» проходил не только по границе, но и в эфире. Некоторые проклинали французский стандарт SECAM, принятый когда-то сгоряча, по чисто политическим соображениям. Действи­тельно, до 1965 года наши телевизионщики в основном ориентировались на американский стандарт NTSC, вещание в котором началось в США еще в 1953 оду. Но даже в богатой Америке цветные телевизоры с трудом находили дорогу в дома зрителей. Стоили они довольно дорого, но не это главное - краски на Р   ах были далеки от реальности. Лицо симпатичной дикторши вместо приятного розового цвета приобретало то кирпичный, а то и вообще фиолетовый оттенок. Виновником этого являлся не только кинескоп с несовершенной маской, которая направляет электронный луч к нужному зернышку люминофора но и трансляционные каналы связи, передавшие сигнал, например, от Вашинг­тона до Сан-Франциско. Дело в том, что стандарт NTSC обеспечивает высокую четкость по цвету, но крайне привередлив к качеству канала передачи. Поэтому среди инженеров до сих пор ходит легенда о том, как каждое утро, до начала передач, американцы усаживали перед телекамерой стандартно накрашенную девушку и по цвету ее лица корректировали фазовые искажения в каналах свя­зи. Постепенно они сумели подтянуть уровень своих линий междугородней связи (спутников связи тогда еще не было) и обеспечить приемлемое качество цветов на экранах, но на это ушло более 10 лет и огромные по тем времена деньги.

Пробные передачи в стандарте NTSC в начале 60-х лет велись и у нас в Москве, телевизионная промышленность готовилась сделать родной стране и партии трудовой подарок к очередному съезду или же к празднику. Однако ес­ли багровый цвет лиц трудящихся на ноябрьской демонстрации еще как-то можно было объяснить, то фиолетовые флаги никак не проходили по идеологи­ческим соображениям. На близких расстояниях краски получались еще более или менее правдоподобными, но на дальних — ретрансляционные линии вноси­ли недопустимые искажения. При наших масштабах - от Москвы до Владиво­стока - затраты на модернизацию линий связи могли превысить текущие фи­нансовые возможности.

Но тут наступил 1965 год, и президент Франции Де Голь захотел вдруг выйти из НАТО. Советское руководство пришло от этого в восторг и решило сделать ряд встречных шагов по сближению со строптивым генералом. И во время одного из визитов на высшем уровне, без каких бы то ни было консуль­таций со специалистами, наши заявили о принятии французского стандарта SEC AM. После этого министру связи оставалось ответить «Есть!» и запросить деньги на технологию и оборудование из Франции. Так в СССР и в «братских странах социалистического лагеря» появилась система, несовместимая с обще­принятой в большинстве стран Западной Европы.

Разумеется, в то время еще имелась возможность договориться и принять единый стандарт. Но тогдашним руководителям еще не было знакомо слово «разрядка», речь шла лишь о мирном сосуществовании и соревновании с целью выяснить, чья же система (не телевизионная, а политическая) лучше. Поэтому крайне нежелательным считалось, чтобы граждане из братской ГДР свободно смотрели передачи, предназначенные для западных немцев. Хорошо хоть, что метровые и дециметровые радиоволны, на которых ведется телевещание, распространяются не так далеко - в пределах прямой видимости. Для того чтобы увеличить зону охвата, требуется построить высокую телебашню, и их возво­дили с обеих сторон границы. Надо также заметить, что ограниченность зоны вещания - это одна из объективных причин появления на свет множества несо­вместимых стандартов.

Немцы, долгие годы наблюдавшие со стороны за мучениями американцев с их системой NTSC, тоже не дремали. В 1963 году Вальтер Брух из компаний Telefunken продемонстрировал систему PAL, в которой цветовая информация передавалась дважды в двух соседних строках, но в противофазе. За счет усреднения удавалось почти полностью подавить характерные цветовые искажения. Конечно, четкость в цвете при этом снижалась вдвое, однако на глаз это было практически незаметно. По существу, PAL - это усовершенствованная NTSC, только для ее реализации требуется прецизионная линия задержки сигнала на одну строку. Сегодня это наиболее распространенная система цветного телевидения, которую использует около ста стран Западной Европы, Азии и Африки. Даже некоторые наши бывшие соседи по соцлагерю, Польша, к примеру, полностью перешли на PAL и влились в европейское сообщество. Но в то время отечественная промышленность не сумела освоить массовое производство дешевых линий задержки сигнала с точностью не хуже нескольких пикосекунд а идти на поклон к «реваншистам» из ФРГ очень не хотелось.

Сепаратный SECAM. Франция всегда шла своим особым путем и при появлении цветного телевидения вспомнила об изобретении инженера Анри де Франса. Еще в 1954 году он создал систему, свободную от недостатков амери­канской. SECAM в переводе с французского означает «поочередная передача цветов и память», и в полном соответствии с этим в ней в разных строках по­очередно передаются красный и синий сигналы, а в приемнике для восстановления недостающей информации имеется линия задержки (память) на одну строку. Но самое главное, что для передачи сигналов цветности в ней исполь­зуются частотная модуляция, делающая ее нечувственной к помехам и искаже­ниям в каналах связи.

Как и PAL, SECAM снижает цветовую четкость в два раза по сравнению с NTSC, но это не так страшно, как фиолетовый оттенок на лице диктора. После заключения политического соглашения в 1965 году система еще пару лет дора­батывалась совместно специалистами Франции и СССР, и после ряда модифи­каций она наконец-то была принята для вещания одновременно у нас и во Франции. В 1967 году в СССР с большой помпой отмечалось 50-летие социали­стической революции (называемой теперь октябрьским переворотом) и к этой дате приурочили торжественное открытие передач в цвете. Улучшения в систе­мы продолжались в процессе эксплуатации, и ее современная версия называет­ся SECAM-III. В лучшие годы SECAM использовали более 50-ти стран Европы (бывшего СЭВ), Азии и Африки (в основном бывшие французские колонии).

За прошедшие 38 лет с момента принятия SECAM в нашей стране много раз возникали споры: стоило ли равняться на французов и не сменить ли нам стандарт на более распространенный PAL. Сейчас, в связи с интенсивным переходом к цифровым технологиям эти споры поутихли - «цифра» гарантирует не только полную совместимость всех телевизоров нового поколения, но и гораздо более высокую четкость, стабильность и качество цветов картинки. Менять систему, зная, что через 5-7 лет придется все равно переходить к «цифре» и выбрасывать аналоговое студийное оборудование, сегодня уже нет никакого смысла.

В настоящее время все телестудии США в массовом порядке переходят на цифровой стандарт HDTV, а владельцам старых (и новых) аналоговых телевизоров приходится покупать специальные приставки (set-top-boxes). В Европ внедряется наземное цифровое телевидение в стандарте DVB-T, а спутниковое у них уже давно почти все цифровое. Даже у нас в России ведутся передачи в стандарте DVB-T, а многие сотни тысяч домов оснащены тарелками и цифровыми ресиверами для приема передач со спутников. Более того, цифровое теле­видение сегодня приходит в дома жителей крупных городов по кабелю.

Да и на DVD фильмы записаны в цифре - в форматах MPEG-2 и MPEG-4, и лишь на выходе преобразуются в аналоговую форму (NTSC или PAL), по­нятную для наших телевизоров. Так что «лучше цифр могут быть только циф­ры», но с еще более высоким разрешением, как американское HDTV.

Немного истории. Исторически так сложилось, что каждая промышленно развитая страна создала свой стандарт на телевизионное вещание, хотя в то время можно было выработать и единый международный стандарт. Одной из причин такого разнобоя явилось то, что метровые и дециметровые волны рас­пространяются в атмосфере почти как свет — в пределах прямой видимости. До эпохи цветного телевидения появилось целых 13 стандартов черно-белого теле­видения, причем каждый из них имел свою сетку частот. Стандартов цветного телевидения, к счастью, оказалось значительно меньше — всего 3.

Уже при создании черно-белого телевидения были учтены основные осо­бенности человеческого зрения: угол обзора, составляющий для большинства людей 600 угловых минут, разрешающая способность глаза (1 угловая минута), а также инерционность зрения. Исходя из этого, вертикальное разрешение ана­логового телевидения составляет около 600 строк. Например, американский NTSC содержит 525 строк, европейский - 625. Тем не менее, в Великобритании существовал стандарт с числом строк 405, а во Франции — с 819, но сейчас и они перешли на 625 строк.

Выбор частоты кадров также основан на физиологии человеческого зре­ния. Еще первые эксперименты с немым кино показали, что человек воспри­нимает движение как непрерывное при частоте смены кадров более 12 раз в се­кунду, а мерцание экрана становится практически незаметным при частоте бо­лее 50 кадров в секунду. В первых опытах по передаче изображения передаю­щей трубкой служил фотоэлектронный умножитель с диском со спирально-расположенными отверстиями (диск Нипкова), а вместо кинескопа использова­лась плоская (размеров с большую почтовую марку) неоновая лампа с таким же диском. Для обеспечения устойчивости изображения диски вращались подклю­ченными к осветительной сети синхронными двигателями. По этой причине частота смены кадров оказалась привязанной к национальным электросетям: в Америке это 60 Гц, в Европе - 50 Гц. Когда появились кинескопы, выяснилось, что для 50 Гц (60 Гц в США) требовалось слишком широкая полоса передавае­мых частот. Было принято компромиссное решение: снизить частоту смены кадров до 25 (30) Гц, а чтобы глаз меньше уставал от мерцания экрана, частоту кадровой развертки оставить прежней и передавать сначала нечетные, а затем четные строки (сделать чересстрочную развертку). Первоначально для показа фильмов по телевизору выбрали формат экрана 4:3, соответствующий формату киноэкрана.

Отсюда берут начало два базовых стандарта черно-белого телевидения - Американский (FCC) и Европейский (CCIR). Тем не менее, не все европейские страны приняли стандарт CCIR, в СССР был разработан собственный вариант - OIRT, а Франция и Швейцария сохранили свои стандарты.

Каждая страна выделила себе для передачи телевизионных сигналов свои частотные диапазоны. Например, собственные стандарты на частоты телеканалов имеют Австралия, Италия, Марокко, Новая Зеландия, Китай, Страны СНГ, Ирландия, Южная Африка, Франция, Япония и США. К счастью, когда вещание освоили дециметровые волны (ДМВ), большинство стран смогли договориться, и стандартов на ДМВ осталось всего три. Они отличаются друг от друга частотными интервалами и полосой канала: в Европе это каналы 21.. .69 (от 470 до 854 МГц с полосой 8 МГц), в Америке - каналы 14...83 (470...884 МГц с полосой 6 МГц) и в Австралии - каналы 28...69 (526...813 МГц с полосой 7 МГц).

Интересно, какое максимальное количество программ сможет принимать телевизор, если передатчики используют всю разрешенную сетку частот? В За­падной Европе (стандарт CCIR) телевизионные каналы распределены следую­щим образом. Метровые каналы с именами Е2-Е12 (всего 11), кабельные кана­лы S1-S20 (всего 20), кабельные каналы гипердиапазона Н1-Н19 (всего 19) и дециметровые каналы 21-69 (всего 49). Если телевизор не подключен к кабель­ной сети, то максимальное число программ равно 60. В Восточной Европе (стандарт OIRT) распределение каналов отличается только количеством кана­лов метрового диапазона. Метровых каналов с именами R1-R12 не 11, как в За­падной Европе, а 12.

Да будет цвет! При создании системы цветного телевидения основной задачей разработчиков являлось обеспечение ее совместимости с черно-белым телевидением. Нельзя было лишать владельцев черно-белых телевизоров воз­можности смотреть передачи цветного телевидения (в черно-белом варианте), а владельцев цветных телевизоров — черно-белые передачи. Поэтому пришлось размещать более информативное цветное изображение в прокрустово ложе черно-белого стандарта. Тогда в ход пошли разные хитрости, среди которых -физиология цветного зрения человека и радиотехническая наука, способная за­шифровать сигналы цветного телевидения и передать их вместе с сигналами черно-белого телевидения.

Разрешающая способность человеческого глаза зависит от цвета: в крас­ном она в 4, а в синем в 10 раз меньше, чем в белом или зеленом. Такой перекос существенно позволил сузить полосу при передаче сигналов цветности. В но­вом формате решили разделить сигналы черно-белого телевидения (яркостной нал) и цветного (канал цветности). При приеме цветным телевизором черно-белого изображения канал цветности просто выключается, а при приеме черно-белым телевизором цветного - работает только канал яркости. Так было соблюдено главное требование обеспечения совместимости. Теперь осталось сделать, чтобы сигнал цветности, «вплетенные» в яркостной сигнал, не были заметны черно-белом телевизоре. Для этого пришлось передавать сигналы не и синего цветов, а так называемые цветоразностные, предоставляющие собой разность соответствующих сигналов цветности и яркости. При таком способе в слабонасыщенном изображении цветоразностные сигналы практически отсутствуют и незаметны на черно-белом телевизоре. Эти правила — общие для всех систем цветного телевидения, но далее каждый разработчик пошел своим путем.

Система NTSC M (National Television System Committee), которую ча­ще называют NTSC 3.58, была разработана в США и принята для вещания в 1953 году. В настоящее время вещание по этой системе ведется не только в США, но и в Канаде, Японии, Южной Корее, Тайване и в ряде стран американского континента. Особенностью системы NTSC является то, что оба цветоразностных сигнала передаются в каждой строке растра, чем достигается высокая цветовая четкость по вертикали. Чтобы между цветоразностными сигналами не возникало взаимных влияний, а также не было заметно мелкой сетки поднесу, щей, на черно-белом телевизоре использована квадратурная балансная модуля­ция.

Основным недостатком системы NTSC 3.58 является ее высокая чувстви­тельность к дифференциально-фазовым искажениям, которые возникают в ка­налах передачи телевизионного сигнала по радиорелейным линиям и спутнико­вым системам. Фазовые ошибки больше 5 градусов вызывают заметное иска­жение цветов, которое в телевизорах NTSC корректируется специальной регу­лировкой TINT.

NTSC стала основной при разработке системы PAL (Phase Alternation Line), которая была реализована в Германии инженерами компании Telefunken в 1963 году. Разработчикам удалось устранить основной недостаток системы NTSC — ее чувствительность к дифференциально-фазовым искажениям путем фазовой манипуляции красного цветоразностного сигнала. За счет электриче­ского сложения прямого и задержанного сигналов цветности в каждой из двух соседних строк фазовые ошибки величиной до 35 градусов полностью компен­сируются и сводятся к уменьшению амплитуды цветоразностных сигналов, что приводит лишь к незначительному уменьшению цветовой насыщенности. При этом полная информация о цветности у системы PAL содержится в паре строк растра, поэтому разрешение по вертикали для цветного изображения уменьша­ется до 288 строк, однако это практически незаметно. Частота поднесущей  цветности выбрана равной 4,43361825 МГц. Для получения сигнала предыду­щей строки необходима линия задержки, требования к которой очень высоки. Не вдаваясь в подробности, отметим, что время задержки линии составляет 63,94325 мкс, а не 64 мкс, что связано с компенсацией фазовых искажений. Разброс времени задержки такой линии не должен превышать 5 нс.

SECAM (SEqucncional Couler A Memoir) основана на иных принципах и существенно отличается от других систем цветного телевидения. Ее особен­ность заключается в последовательной (построчной) передаче цветоразностных сигналов красного и синего на частотно-модулированных поднесущих частотах 4,25 и 4,40625 МГц, использовании при декодировании цветности линии за­держки на одну строку (64 мкс) и электронного коммутатора прямого и задер­жанного сигналов. Поэтому здесь, как и у системы PAL, полная информация для декодирования цветности содержится в двух соседних строках растра, а таких пар на видимую часть кадра приходится 288. Важнейшим преимуществом системы SECAM считается ее нечувствительность к дифференциально-фазовым искажениями перекрестным искажениями цветоразностных сигналов.

Теоретически качество цветного изображения в системе SECAM может быть даже лучше, чем в PAL, однако на практике дело обстоит сложнее. Система SECAM нечувствительна к дифференциально-фазовым искажениям, поэтому искажений при передаче цветов действительно нет. Однако неприятности ожидали ее создателей на резких цветовых переходах. В этих областях возникает паразитное приращение цветовой поднесущей, которое на экране телевизор проявляется как цветные окантовки или же тянущиеся продолжения - «факелы». Обычно после ярких участков изображения окантовка имеет синий цвет, после темных — желтый. Кроме того, в системе SECAM при слабом входном сигнале повышены шумы в канале цветности. Сегодня у телевизоров достаточно высокого класса, оснащенных гребенчатыми фильтрами, эти эффекты практически незаметны.

В целом, если сегодня поставить рядом три телевизора достаточно хорошего класса и подать на них одну и ту же передачу, но в трех разных стандартах (NTSC, PAL, SECAM), то глаз рядового телезрителя не сумеет уловить разницы

Ниже в таблицах 9.1 и 9.2 приведены основные характеристики телевизионных систем и их модификации.

Напомним, что в России принят стандарт SECAM D/K (первая буква относится к диапазону метровых волн, вторая — дециметровых), во Франции -SECAM E/L, Монако - SECAM C/L, Иране - SECAM В, Германии - PAL B/G Англии - PAL АЛ, Бельгии - PAL В/Н, Бразилии - PAL М/М, Китае - PAL D/K в США, Японии и Тайване - NTSC М/М.

В заключение отметим, что французский и российский SECAM сущест­венно отличаются в модуляции несущего радиосигнала — как по видео, так и по звуку. А на уровне низкочастотных сигналов отличий нет. Основное отличие между SECAM B/G и D/K — в частоте разноса звука от видео. В то же время с точки зрения модуляции радиосигналов отличий между PAL D/K и SECAM D/K нет. Это позволяет использовать телевизионный тюнер, настроенный на PAL D/K, для выделения нашего SECAM из высокочастотного сигнала. Оче­видно, что полученный при этом низкочастотный сигнал все же необходимо подавать именно на SECAM-декодер.

 

9.2. Форматы представления видеосигнала

 

Низкочастотный телевизионный видеосигнал является композитным, т.е. представляет собой результат сложения яркостного сигнала Y, двух цвето­вых поднесущих, модулированных сигналами цветности U и V, а также син­хроимпульсов, причем частоты цветоразностных сигналов лежат в пределах полосы спектра яркостного сигнала. Но из-за строчной структуры телевизион­ного разложения в спектральной области все они имеют гребенчатую структу­ру, расстояния между соответствующими пиками которых равны строчной час­тоте. При этом частоты поднесущих выбраны так, чтобы спектральные пики сигналов цветности оказались между пиками яркостного сигнала. В результате путем использования специальных гребенчатых фильтров возможно эффектив­ное разделение этих сигналов. Однако, подобные фильтры весьма сложны и дороги, а потому в основном используются в профессиональной аппаратуре высокого разрешения.

В бытовых устройствах ограничиваются более простыми полосовыми фильтрами, заметно снижающими четкость изображений. Так в видеомагнитофонах и камерах классов VHS (Video Home System) и Video-8 используются только композитные видеосигналы, при этом разрешение ограничено 240 телевизионными строками. Кроме того, даже полное использование всех различий сигналов все равно не позволяет идеально разделить их. Поэтому более эффективным оказывается использование не единого композитного сигнала, а двух композитных сигналов Y/C: Y, как и ранее, несет яркостный сигнал и синхроимпульсы, а С (Chrominance) - модулированные цветовые сигналы. Такой сигнал SVideo, используется при записи/воспроизведении в аппаратуре классов S-VHS и Hi-8. Считается, что при этом обеспечивается разрешение в 400 строк

Следующим шагом к повышению качества является переход к компонентному сигналу YUV. Он используется в профессиональной аппаратуре класса Betacam и обеспечивает разрешение до 500 строк. И, наконец, последним в этой череде является RGB-представление, при котором отсутствуют какое – либо  кодирование и модуляция, и осуществляется наиболее простая и точная передача сигнала. Однако, в силу вышеуказанных особенностей зрительного восприятия человека, достигаемое здесь повышение качества уже становится визуально несущественным. Поэтому, подобное представление реально используется только в высокоточной научной измерительной аппаратуре.

За последние несколько лет появилось большое число различных цифровых форматов представления видеосигнала. Аппаратура, работающая в этих форматах, выпускается рядом фирм — законодателей мод в видеотехнике, такими как Sony, Panasonic, JVC и т. д. Такая аппаратура стала появляться и нашем рынке, хотя пока она слишком дорога для «российского» уровня, особенно для бытового. Приведем сводную таблицу существующих форматов, в том числе и цифровых, к которым вернемся в дальнейшем. Самым «непонятный» в этой таблице столбец это «вид сигнала». Что означают обозначения YUV 4:2:2, YUV 4:1:1 и т. п.? Настало время поговорить о цифровом представлении телевизионного видеосигнала.

 

9.3. Цифровое представление телевизионного сигнала

 

По своей массе и производственным мощностям аналоговая вещательная аппаратура все еще преобладает, но очень быстро сдает одну позицию за другой. Как и ожидалось, переход к цифровым вещательным комплексам осущест­вляется, главным образом, за счет поэтапного встраивания цифрового оборудо­вания в аналоговое окружение. Процесс этот идет повсеместно, но в разных странах темпы перехода различны.

В наиболее развитых странах уже сейчас можно говорить о преобладании цифровой аппаратуры, в некоторых она просто отсутствует. Россию в этом плане, пожалуй, следует отнести к слаборазвитым странам. Бурному внедрению цифровых технологий в наше вещание, естественно, препятствует отсутствие необходимых средств у большинства телевизионных и радиовещательных ком­паний страны. Тем не менее, дело сдвинуто с мертвой точки и идет с впечат­ляющим ускорением.

Что предлагают цифровые технологии на разных стадиях подготовки и распространения вещательных программ, как влияют на художественные воз­можности, о чем следует помнить, работая с цифровой аппаратурой, и чего на­до опасаться, особенно в системах с компрессией сигналов? Ответы на все эти вопросы следует знать всем работникам вещательных организаций — инженер­но-техническому персоналу и творческим работникам.

Цифровая техника стала постепенно проникать в телевидение в семидеся­тые годы. Первыми появились цифровые корректоры временных искажений, затем - кадровые синхронизаторы, генераторы специальных эффектов, микше­ры, коммутаторы. Но говорить о возможности полномасштабного перехода к цифровому телевидению стали десять лет назад, когда появился первый про­мышленный цифровой видеомагнитофон, разработанный фирмой Sony. Это - выдающееся событие для телевидения.

Прежде всего, надо отметить, что параметры, характеризующие качество воспроизводимого изображения и звука в цифровом аппарате, превосходили те значения, которые были типичными для аналоговых магнитофонов. Но появление цифровой видеозаписи означало не просто значительное улучшение параметров. Эффект накопления искажений, присущий всем аналоговым системам, например, ограничивает предельно допустимое число перезаписей, которые могут быть сделаны на аналоговом магнитофоне. Так, например, перезапись на магнитофонах формата VHS, без потери качества в пределах нормы, не допускается вообще, формат S-VHS допускает одну - две перезаписи, a Betacam SP три – четыре. А вот цифровые системы практически свободны от эффекта накопления искажений. Если в аналоговом аппарате предельно допустимое число перезаписей  исчисляется единицами, то в цифровом видеомагнитофоне визуальное качество изображения не изменяется после десятков перезаписей. А это уже не проста количественное улучшение. Можно сказать, что предельно допустимое количества перезаписей уже практически не ограничивает возможности Издателей телевизионных программ.

Десятилетия основным носителем в системах видеозаписи была магнитная лента. Но сейчас запись на диск завоевывает свое место в видеотехнике. Дисковые системы дороже ленточных, но они обладают весьма важным преимуществом  - практически мгновенным (в сравнении с ленточными система­ми) доступом к любому фрагменту записи. Это создает новые возможности для компоновки и монтажа.

Таким образом, появление цифровой видеозаписи ознаменовало начало кардинальных изменений в технологии производства телевизионных программ. Но цифровая техника порождает и проблемы. Полоса частот цифровых сигна­лов значительно шире полосы их аналоговых предшественников. Например, полоса частот, занимаемая телевизионным видеосигналом в цифровой форме, составляет сотни мегагерц. Так, при передаче телевизионного сигнала в цифро­вой форме требуются каналы связи с пропускной способностью до сотен мега­бит в секунду. Использование каналов, не вносящих ошибки в цифровой поток и обладающих столь большой пропускной способностью, может оказаться не­возможным или экономически невыгодным. При плотностях записи информа­ции, которые приходится использовать, например, в цифровых видеомагнито­фонах, ошибки при воспроизведении просто неизбежны. Поэтому сам факт преобразования аналоговых сигналов в цифровую форму еще не гарантирует высокого качества.

Принципиальный способ решения проблем передачи и записи с высокой степенью помехозащищенности был обоснован Шенноном. Он заключается в кодировании сигнала. К системам кодирования в цифровой видеотехнике предъявляются весьма многочисленные и часто противоречивые требования, Поэтому на практике кодирование всегда выполняется в несколько приемов.

Принято выделять следующие основные виды кодирования:

■ кодирования источника информации с целью преобразования сигнала в цифровую форму и его экономное представление путем сжатия или, как часто сворят, компрессии;

■ кодирования с целью обнаружения и исправления ошибок;

■ канального кодирования с целью согласования параметров цифрового сигнала со свойствами канала связи и обеспечения самосинхронизации.

 

 

9.3.1. Аналого-цифровое преобразование видеосигналов

 

Основные приемы преобразования аналогового сигнала в цифровую форму были рассмотрены нами в первой части монографии. Однако автор счел возможным в какой-то степени повторить изложенное, так как здесь мы сосредоточим свое внимание на особенностях оцифровки видеосигналов.

Итак, для преобразования любого аналогового сигнала (звука, изображения) в цифровую форму необходимо выполнить три основные операции: дискретизацию, квантование и кодирование.

■ Дискретизация - представление непрерывного аналогового сигнала по последовательностью его значений (отсчетов). Эти отсчеты берутся в моменты времени, отделенные друг от друга интервалом, который называется интерва­лом дискретизации. Величину, обратную интервалу между отсчетами, называ­ют частотой дискретизации. На рис. 9.1. показаны исходный аналоговый сигнал и его дискретизированная версия. Картинки, приведенные под временными диаграммами, получены в предположении, что сигналы являются видеосигна­лами одной строки, одинаковыми для всего телевизионного растра.

Понятно, что чем меньше интервал дискретизации и, соответственно, выше частота дискретизации, тем меньше различия между исходным сигналом и его дискретизированной копией. Ступенчатая структура дискретизированного сигнала может быть сглажена с помощью фильтра нижних частот. Таким обра­зом и осуществляется восстановление аналогового сигнала из дискретизиро­ванного. Но восстановление будет точным только в том случае, если частота дискретизации по крайней мере в 2 раза превышает ширину полосы частот исходного сигнала (это условие определяется известной Котельникова) Если это условие не выполняется, то дискретизация сопровождается необратимыми искажениями. Дело в том, что в результате дискретизации в частотном спектре сигнала появляются дополнительные компоненты, располагающиеся вокруг гармоник частоты дискретизации в диапазоне, равном удвоенной ширине спектра исходного аналогового сигнала. Если максимальная частота в частотном спектре аналогового сигнала превышает половину частоты дискретизации, то дополнительные компоненты попадают в полосу частот исходного аналогового сигнала. В этом случае уже нельзя восстановить исходный сигнал без искажений. Теория дискретизации приведена во многих книгах.

Предположим, что частота видеосигнала ТВ строки сначала увеличивается от 0,5 МГц до 2,5 МГц, а затем уменьшается до 0,5 МГц. Этот сигнал дискретизируется с частотой 3 МГц. На рис. 9.2 последовательно приведены изображения: исходный аналоговый сигнал, дискретизированный сигнал, восста­вленный после дискретизации аналоговый сигнал. Восстанавливающий фильтр нижних частот имеет полосу пропускания 1,2 МГц. Как видно, низко­частотные компоненты (меньше 1 МГц) восстанавливаются без искажений. Сигнал с частотой 1,5 МГц исчезает и превращается в относительно ровное по­ле. Сигнал с частотой 2,5 МГц после восстановления превратился в сигнал с частотой 0,5 МГц (это разность между частотой дискретизации 3 МГц и часто­той исходного сигнала 2,5 МГц).

Пример искажений дискретизации приведен на рис. 9.2.

Эти диаграммы-картинки иллюстрируют искажения, связанные с недостаточно высокой частотой пространственной дискретизации изображения. Если объект телевизионной съемки представляет собой очень быстро движущийся или, например, вращающийся предмет, то могут возникать и искажения дискретизации во временной области.

Если потребовать, чтобы в процессе дискретизации не возникало искажений ТВ сигнала с граничной частотой, например, 6 МГц, то частота дискретизации должна быть не меньше 12 МГц. Однако, чем ближе частота дискретизации к удвоенной граничной частоте сигнала, тем труднее создать фильтр нижних частот, который используется при восстановлении, а также при предварительной фильтрации исходного аналогового сигнала. Это объясняется тем, что при приближении частоты дискретизации к удвоенной граничной частоте дискретизируемого сигнала, предъявляются все более жесткие требования к частотных характеристик осстанавливающих фильтров - она все точнее должна соответствовать прямоугольной характеристике. Следует подчеркнуть, что фильтр с прямоугольной характеристикой не может быть реализован физически. Такой фильтр, как показывает теория, должен вносить бесконечно боль­шую задержку в пропускаемый сигнал. Поэтому на практике всегда существует некоторый интервал между удвоенной граничной частотой исходного сигнала и частотой дискретизации.

■ Квантование представляет собой замену текущей величины отсчета сиг­нала ближайшим значением из набора фиксированных величин - уровней кван­тования. Другими словами, квантование - это округление величины отсчета. Уровни квантования делят весь диапазон возможного изменения значений сиг­нала на конечное число интервалов — шагов квантования. Расположение уров­ней квантования обусловлено шкалой квантования. Используются как равно мерные, так и неравномерные шкалы. На рис. 9.3 показаны исходный аналоге вый сигнал и его квантованная версия, полученная с использованием равно мерной шкалы квантования, а также соответствующие сигналам изображения.

 

Искажения сигнала, возникающие в процессе квантования, называют шумом квантования. При аппаратной оценке шума вычисляют разность между исходным сигналом и его квантованной копией, а в качестве объективных показателей шума принимают, например, среднеквадратичное значение этой разности. Временная диаграмма и изображение шума квантования также показаны на рис. 9.3 (изображение шума квантования показано на сером фоне). В отличие от флуктуационных шумов шум квантования коррелирован с сигналом, поэтому шум квантования не может быть устранен последующей фильтрацией. Шум  квантования убывает с увеличением числа уровней квантования.

На рис. 9.4, а показано изображение, квантованное на 4 уровня, и соответствующий такому числу уровней шум квантования, в котором можно разглядеть исходного изображения.

Изображение, показанное на рис. 9.4, б, получено с использованием 128 уровней. При таком уже сравнительно большом числе уровней шум квантова­ния похож на обычный флуктуационный шум. Уровень шума уменьшился, по­этому пришлось для показа картинки шума квантования увеличить его мас­штаб, чтобы шум был заметен. Еще несколько лет назад вполне достаточным казалось использовать 256 уровней для квантования телевизионного видеосиг­нала. Сейчас считается нормой квантовать видеосигнал на 1024 уровня. Число Уровней квантования при формировании цифрового звукового сигнала намного больше: от десятков тысяч до миллионов.

 

Цифровое кодирование. Квантованный сигнал, в отличие от исходного аналогового, может принимать только конечное число значений. Это позволяет представить его в пределах каждого интервала дискретизации числом, равным порядковому номеру уровня квантования. В свою очередь это число можно выразить комбинацией некоторых знаков или символов. Совокупность знаков (символов) и система правил, при помощи которых данные представляются в виде набора символов, называют кодом. Конечная последовательность кодовых символов называется кодовым словом. Квантованный сигнал можно преобразовать в последовательность кодовых слов. Эта операция и называется кодированием. Каждое кодовое слово передается в пределах одного интервала дискретизации. Для кодирования сигналов звука и изображения широко применяют двоичный код.

Кодовые слова можно передавать в параллельной или последовательной формах (рис. 9.5). Для передачи в параллельной форме надо использовать n ли­ний связи (в примере, показанном на рисунке, n = 4). Символы кодового слова одновременно передаются по линиям в пределах интервала дискретизации. Для передачи в последовательной форме интервал дискретизации надо разделить на n подинтервалов — тактов. В этом случае символы слова передаются последова­тельно по одной линии, причем на передачу одного символа слова отводится один такт. Каждый символ слова передается с помощью одного или нескольких дискретных сигналов - импульсов. Преобразование аналогового сигнала в по­следовательность кодовых слов, поэтому часто называют импульсно – кодовой  модуляцией. Форма представления слов определенными сигналами определяется форматом кода. Можно, например, устанавливать в пределах такта высокий уровень сигнала, если в данном такте передается двоичный символ 1, и низкий - если передается двоичный символ 0 (такой способ представления, показания» на рис. 9.5, называют форматом БВН - Без Возвращения к Нулю). В пример рис. 9.5 используются четырехразрядные двоичные слова (это позволяет иметь 16 уровней квантования). В параллельном цифровом потоке по каждой линии в передалах дискретизации передается 1 бит четырехразрядного слова. В последовательном потоке интервал дискретизации делится на 4 такта, в которых передается

( начиная со старшего) биты четырехразрядного слова

 

 

 

9 3.2 Цифровое представление компонентного видеосигнала

 

Компонентный телевизионный видеосигнал может быть представлен в форме в соответствии с Рекомендацией ITTJ-R 601. Эта рекомендация раздельной дискретизации, квантования и кодирования цветоразностных сигналов R-Yr) и B-Yb). Частота дискретизации для яркостного сигнала Y установлена равной 13,5 МГц, цветоразностных сигналов — 6,75 МГц, то есть частота дискретизации яркостного сигнала в 2 раза больше частоты дискретизации цветоразностных сигналов. Если взять, как принято, в качестве условной (базовой для иерархии цифровых стандартов) единицы частоту 3,375 МГц, то частоты дискретизации яркостного и двух цветоразностных сигналов будут находиться в соотношении 4-2-2, которое и дает часто используемое название стандарта.

 

   При таких значениях частот дискретизации можно практически преобразовать без искажений в цифровую форму сигнал яркости в полосе до 5,75 МГц, а цветоразностные сигналы - в полосе до 2,75 МГц (надо помнить о защитном интервале между граничной частотой сигнала и половиной частоты дискретизации). Стандарт 4:2:2 используется в качестве базового при оценке других вариантов дискретизации, и на значение 5,75 МГц часто ссылаются как на границу полной полосы ТВ сигнала.

Рисунок 9.6 показывает дискретизацию компонентного телевизионного  сигнала на примере сигнала цветных полос. Длина кодового слова – 10 двоичных разрядов — битов (в первоначальном варианте — 8 битов), что позволяет перенумеровать 1024 уровня квантования. Однако числа 0..3 и 1020..1023 резервируются для цифровых синхронизирующих сигналов. Для квантования яркостного сигнала выделяется 877 уровней (значение черного в видеосигнале соответствует уровню квантования 64, а номинальное значение белого — уровни-940). Для квантования цветоразностных сигналов выделяется 897 уровней, причем нулевому значению аналогового сигнала соответствует уровень квантова­ния 512.

Приведенные диапазоны уровней квантования часто используются при сравнении с другими вариантами квантования. В этом случае на них часто ссы­лаются как на показатели динамического диапазона или полного разрешения по уровню сигнала, поскольку число уровней квантования определяет шум квантования и, соответственно, динамический диапазон. В этом же смысле иногда говорят о 10-битном разрешении.

Частоты дискретизации представляют гармоники строчной частоты, что обеспечивает неподвижную ортогональную структуру отсчетов ТВ изображе­ния (рис. 9.7).

Рис.9.7. Структура дискретизации при кодировании компонентного видеосигнала (4:2:2)

 

Величинам 13,5 и 6,75 МГц кратна, как частота строчной развертки стандарта телевизионного разложения 625/50, так и частота развертки стандарт 525/60. Собственно, выбор в качестве базовой именно частоты 3,375 МГц во многом связан с соображениями кратности с частотами строчной развертки двух мировых стандартов разложения. Это важно потому, что позволило ввести единый мировой стандарт цифрового кодирования компонентного видеосигнала, при котором в активной части строки содержится 720 отсчетов яркостного сигнала, и по 360 — каждого цветоразностного. Различие в системах 625/50 и сигнала и 525/60 заключается в разном числе строк и несколько отличающейся длительности интервала гашения. Полная скорость передачи цифрового компонентного видеосигнала составляет 10х3,5+10x6,75+10x6,75=270 Мбит/с.

Существует и другие форматы представления компонентного сигнала в цифровом виде. Кодирование по стандарту 4:4:4 предполагает использование частоты 13,5 МГц для всех компонентов: R, G, В или Y, Сr, Сb (рис. 9.8). Это  означает, что все компоненты передаются в полной полосе частот. Для каждого компонента в активной части кадра оцифровывается 576 строк по 720 элементов Скорость цифрового потока при 10-битовом слове составляет 405 Мбит/с.

Формат 4:4:4:4 описывает кодирование четырех сигналов (рис.9.9), три из которых являются компонентами видеосигнала (R, G, В или Y, Сr, Сb), а чет­вертый (альфа-канал) несет информацию об обработке сигнала, например, о прозрачности изображения переднего плана при наложении нескольких изо­бражений. Дополнительным четвертым сигналом может также быть сигнал яр­кости Y в дополнении к сигналам основных цветов R, G, В. Частота дискретизации всех сигналов — 13,5 МГц, т.е. все сигналы передаются в полной полосе частот. Скорость передачи данных при 10 битах на слово равна 540 Мбит/с.

Формат 4:1:1 предлагает двукратное уменьшение частоты дискретизации цветоразностных сигналов (в сравнении со стандартом 4:2:2). Яркостной сигнал Y дискретизируется с частотой 13,5 МГц, а цветоразностные (Сr и Сb) - 3,375 Ц. Это означает и двукратное уменьшение горизонтального разрешения в Цвете. В активной части кадра 576 строк, каждая из которых содержит 720 эле­ментов сигнала яркости и по 180 - цветоразностных сигналов (рис. 9.10). Формат 4:2:0 предлагает изображение, в котором яркостная компонента Y содержит в активной части кадра 576 строк по 720 отсчетов, а цветоразностные компоненты Сr и Сb – 288 строк по 360 отсчетов (рис. 9.11)

Варианты кодирования 4:1:1 и 4:2:0 характеризуются одинаковой скоростью передачи данных – 202,5  Мбит/с для длины кодового слова в 10 бит и 162 Мбит/с – для 8 бит на слова. Если передавать только активную часть изображения (без обратного хода луча), то величина цифрового потока при 8 битах на слова составит 124 Мбит/с. Цифровые сигналы этих двух форматов могут быть из получены сигналов стандарта 4:2:2 путем предварительной обработки и децимации (прореживания отсчетов) с целью сокращения скорости потока. Формат 4:1:1 оказывается более удобным для систем со стандартом разложения 525/60, а формат 4:2:0 — для систем 625/50. Это связано с тем, что потеря вертикальной четкости более заметна в системе с меньшим числом строк (525/60), а потеря горизонтальной четкости более заметна в системе 625/50.

 

Находит применение также формат 3:1:1, в котором уменьшено (в сравне­нии с 4:2:2) горизонтальное разрешение и для яркостной компоненты (с 720 до 540), и для цветоразностных (с 360 до 180). Активная часть кадра содержит 576 строк с 540 отсчетами яркостной компоненты и 180 отсчетами для цветоразно­стных (рис. 9.12). Скорость передачи данных формата 3:1:1 составляет 135 Мбит/с при 8 битах на один отсчет. Для значительного сокращения скорости потока (например, в CD-ROM приложениях) разрешение яркостной компонен­ты снижается примерно в 2 раза по вертикали и по горизонтали, а цветоразно­стных — в 4 раза по вертикали и в 2 раза по горизонтали (в сравнении со стан­дартом 4:2:2).

Такой вид представления описывается форматом CIF (Common Interchan­ge Format). Один кадр этого формата содержит в активной части 288 строк по 352 отсчета для яркостной компоненты и 144 строки по 176 отсчетов для цветоразностных компонент (рис. 9.13). При передаче только активной части изображения  скорость потока составляет около 30 Мбит/с при 8 битах на отсчет

 

 

 

9.3.3. Цифровое представление композитного видеосигнала

 

Композитный сигнал по системам PAL и NTSC дискретизируется с частотой  4fsc, равной четвертой гармонике цветовой поднесущей. Рис. 9.14 иллюстрирует дискретизацию и квантование композитного телевизионного видеосигнала (в качестве сигнала показан сигнал цветных полос). В системе NTSC стро­ка содержит 910 отсчетов, из которых 768 образуют активную часть цифровой строки. В системе PAL на интервал аналоговой строки приходится нецелое число отсчетов с частотой 4fsc. Это обусловлено тем, что в системе PAL поми­мо четвертьстрочного  сдвига используется  дополнительный  сдвиг частоты поднесущей на частоту кадров (25 Гц).

Для сохранения непрерывного цифрового потока отсчетов, следующих с постояной частотой 4fsc, в системе PAL длительность цифровой строки принята неравной длительности аналоговой строки. Все строки поля (за исключением двух) содержат по 1135 отсчетов, а две - по 1137. Длина кодового слова – 10 бит. Необходимость цифрового кодирования фронта и среза синхроимпульсов композитного аналогового сигнала приводит к тому, что для диапазона от

номинальной  величины черного до номинального белого выделяется примерно на 30% меньше уровней квантования, чем для сигнала в компонентной форме. Скорость передачи данных для цифрового сигнала в системе NTSC составляет 143 Мбит/с, а в системе PAL - 177 Мбит/с.

 

9.3.4. Цифровое представление сигналов звукового сопровождения

 

Несколько слов надо сказать о цифровом представлении звукового сигнал, так как многие цифровые устройства обработки видеосигналов имеют и звуковую часть, необходимую для синхронной обработки звука и изображения. Oсобенно это относится к нелинейным видеомонтажным платам и системам.

Для  передачи  звукового  сопровождения  в  телевидении  применяются цифровые сигналы стандарта AES/EBU. В соответствии с этим стандартом при аналого-цифровом преобразовании звука используется импульсно-кодовая модуляция с линейной шкалой квантования, причем на один отсчет для собственно но звуковых данных отводится до 24 бит (рис. 9.15). Форма представления кодовых слов - последовательная. К каждому слову звуковых данных добавляются биты корректности отсчета V, состояния канала С, данных пользователя U. Эта группа из 27 бит, дополненная битом четного паритета Р и синхрословом из 4 бит, образует субкадр из 32 бит.

 

Стандарт поддерживает два звуковых сигнала (например, два моно или один стереоканал), из отсчетов которых формируется кадр. 192 последователь­ных кадра объединяются в блок данных. Объединение в блок значимо лишь по­стольку, поскольку в пределах блока с помощью битов С передается информа­ция, например, о характере сигнала (моно или стерео), о внесенных предискажениях. В пределах блока группируется и информация пользователя. Стандарт AES/EBU допускает ряд частот дискретизации, из которых наиболее удобной для телевидения является частота 48 кГц, при которой длительность блока со­ставляет 4 мс. При этом устанавливается простое соотношение между частотой дискретизации звука и частотой видеокадров, что упрощает синхронизацию я передачу цифровых сигналов видео и звука по одной линии связи. Скорость пе­редачи звуковых данных при частоте 48 кГц составляет 3,072 Мбит/с.

 

 

ГЛАВА 10. СЖАТИЕ ВИДЕОИНФОРМАЦИИ [23, 26, 50-55]

 

10.1. Общие сведения

 

Основной сложностью при записи цифрового видео и при его передаче по каналам связи является большой объем телевизионного сигнала. Проведем расчет, который покажет, какой же объем будет иметь обычный двухчасовой фильм в разрешении 640x480 с частотой смены кадров 25 Гц. Пусть каждая точка принадлежит стандартной компьютерной палитре RGB из 16 миллионов цветов. 640х480х3=900 кбайт – размер одного кадра, 22500 кбайт - размер одной секунды видео, 154 Гбайт!!! - размер всего фильма. Ясно, что такие огром­ные объемы информации хранить и передавать очень сложно. Так, если мы хотим поместить фильм из примера на компакт-диск объемом в 650 Мб, то нам понадобятся 243 диска! Поэтому сразу же с появлением цифрового видео остро встал о компрессии видеоданных. Причем эта компрессия должна быть очень сильной. Напомню, что звук удается сжать только раз в 10...20, даже используя самые совершенные алгоритмы.

Осуществить компрессию ТВ-сигнала позволяет присущая ему избыточ­ность. В общем случае большая часть изображения любого ТВ-кадра обычно приходится на участки, имеющие постоянную или мало меняющуюся в про­странстве яркость, а резкие световые переходы и детали малых размеров зани­мают небольшую долю площади изображения. Коэффициент корреляции со­седних элементов изображения, описывающий статистическую связь между яркостями этих элементов, близок к нуля. Зная яркость одного элемента, можно с вы­сокой степенью вероятности предсказать яркость соседнего. Такого рода избы­точность можно назвать пространственной избыточностью изображения.

Изображения соседних кадров в телевидении обычно очень похожи друг на друга, даже при показе движущихся объектов. Переходы от сюжета к сюже­ту встречаются редко. Межкадровая разность на значительной части площади изображения обычно близка к нулю. Зная распределение яркости в одном кад­ре, можно с высокой степенью уверенности предсказать распределение яркости следующего кадра. Эта предсказуемость указывает на временную избыточность изображения.

В телевидении различают статистическую избыточность, избыточность восприятию, структурную и спектральную избыточность. По теории вероятностей избыточность является следствием определенных корреляционных связей. Корреляция означает, что некоторый элемент изображения более или менее существенно зависит от соседей в пространстве и во времени. Под статистической избыточностью понимают корреляционные связи между соседними (по вертикали горизонтали) отсчетами ТВ-сигнала. Необходимо подчеркнуть, что снижение избыточности в этом случае до определенных пределов обратимо. Примером такого «беспроигрышного» кодирования служит предсказание на основе ДКП. Можно назвать и другие разностные методы.

Избыточность по восприятию связана с особенностями зрения человека Например, цветовое разрешение нашего зрения ниже яркостного. Эта особенность учтена во всех стандартных аналоговых системах цветового кодирование. В системах вещательного телевидения NTSC, PAL и SECAM цветовое разрешение существенно понижено по отношению к яркостному. То же самое зафиксировано в цифровом стандарте 4:2:2, где, по определению, две цветоразностные компоненты представлены таким же по объему информационным массивом, что и один яркостный сигнал.

Учитывая эту особенность нашего зрения по восприятию мелких деталей цветного изображения, можно в несколько раз сократить полосу частот при передаче и кодировании сигналов цветности.

Структурная избыточность - итог особенностей стандарта разложения или, по иному, преобразования изображения в ТВ-сигнал. В нем, например, периодически передаются неизменные по форме элементы сигнала: гасящие пульсы строк и полей. В цифровом ТВ-сигнале нет необходимости передав эти импульсы по каналу связи, так как они могут быть восстановлены в декодере по опорным сигналам синхронизации. В цифровом телевидении достаток передавать только активную часть изображения. В цифровом стандарте 4:2:2 при 10 битах на отсчет устранение из состава цифрового ТВ-сигнала гасящих импульсов строк и полей сокращает скорость передачи данных с 270 Мбит/с 207 Мбит/с, то есть примерно на 23%.

Спектральная избыточность проявляется как результат излишка высок частоты дискретизации. В частности, принятая ортогональная структура дискретизации ТВ-изображения в общем случае не является оптимальной в частотном пространстве. Можно сократить передаваемый цифровой поток, если преобразовать используемую структуру дискретизации в другую, которая характеризуется меньшим числом отсчетов в кадре, например, от формата 4:2:2 перейти к формату 4:2:0 или 4:2:1. Используя интерполяцию и передискретизацию определенным образом выбранных групп отсчетов ТВ-сигнала, можно, принципе, видоизменить спектральный состав и снизить частоту дискретизации. Такая обработка обычно необратима и, как правило, ведет к некоторому снижению качества восстановленного ТВ-изображения за счет уменьшения его разрешения.

Избыточность телевизионного сигнала положена в основу разработки методов сжатия, получивших название MPEG-сжатия.

Напомним, что аббревиатура MPEG представляет собой сокращение от названия специальной экспертной группы Moving Picture Coding Experts Group (дословно - «Группа экспертов по кодированию подвижных изображений»), образованной Международной организацией по стандартизации (International Organization for Standartization - ISO) и Международной электротехнической комиссией (International Electro-Technical Commission - IEC) в январе 1988 года. Немногочисленная вначале группа молодых специалистов все последущие годы непрерывно росла. Сейчас в ее работе принимают активное участие более 300 ведущих экспертов из различных академических учреждений и более чем из 200 компаний, включая, такие известные, как Fujitsu, General Instrument, Matsushita, Mitsubishi, Philips, Scientific Atlanta, Sony, Samsung Electronics и др.

К настоящем моменту группой создана уже целая серия стандартов: MPEG – 1, MPEG – 2, MPEG – 4, MPEG – 7, а  с июня стоящем 2000 г. ведутся работы над еще одним стандартом – MPEG – 21 – Multimedia Framework (Система мультимедий­ных средств)

Задаче, решаемые этой группой, являются очень современными и направлены на создание целого комплекса технологий цифрового представления, сжатия, хранения, передачи и обработки аудио- и видеоинформации, однако сами работы в этой области были начаты значительно раньше.

По сути, теория решения задач цифрового отображения и сжатия аналоговой информации была обоснована еще в трудах Н. Винера, К. Шеннона, А. Колмогорова В. Котельникова в 30-40-е годы двадцатого века. Стройная теория цифровой компрессии видеосигналов была изложена в 1965 г. Д. Лебедевым и И. Цукерманом в их книге «Телевидение и теория информации», а все основные методы обработки ТВ – сигналов, реализовывавшиеся до настоящего времени, нашли свое отражение в труде коллектива авторов «Цифровое телевидение», вышедшего в нашей стране в 1980 г. Но еще более десяти лет потребо­валось для того, чтобы эти идеи и результаты многочисленных научных иссле­дований приобрели лаконичный вид международных стандартов.

Спецификация стандарта MPEG-1, описывающая технологию информа­ционного сжатия для хранения и передачи цифровых данных подвижного изо­бражения и звука по сравнительно низкоскоростным каналам связи (до 1-3 Мбит/с), официально была выпущена в ноябре 1992 года. Однако использован­ный в ней метод сжатия кадров видеоинформации был разработан несколько раньше в рамках другой группы - JPEG, занимавшейся вопросами компьютер­ной обработки неподвижных фотографических изображений.

Фотографическое начало - стандарт JPEG. Объединенная группа экс­пертов по компьютерной обработке фотографических изображений - Joint Photographic Expert Group (JPEG) - была образована совместно Международ­ным союзом электросвязи (International Telecommunications Union - ITU) и ISO в 1986 году. Ее задачей являлась разработка стандарта представления непод­вижных цифровых изображений. Первую спецификацию такого стандарта группа опубликовала в 1991 году. Тремя годами позже - в 1994 году - эта спе­цификация была признана индустриальным стандартом кодирования непод­вижных изображений.

Алгоритм обработки. Одной из основных целей, стоявших перед группой JPEG, была разработка компактного метода представления цветных неподвижных изображений в цифровой форме. При этом, учитывая весьма большие исходные цифровых изображений, целесообразно было найти методы компрессии, обеспечивающие сжатие массивов данных не менее чем в десятки раз

В процессе своей работы группа JPEG обобщила более чем полувековой следований опыт исследований множества специалистов в области человеческого зрения, телевидения, компьютерной графики и др. В результате этого была предложена, технология, использующая так называемое сжатие «с потерями». Его суть заключается в том, что восстановленный после сжатия цифровой массив в не полностью соответствует исходному, однако визуально такое изображение оказывается практически неотличимым от первоначального. Другими словами, при подобной обработке теряются те детали изображения, которые все равно не воспринимаются зрительной системой человека. Достоинством же сжатия с потерями является достижение очень высоких степеней компрессии данных (до 25 раз и более), против всего 2-х кратного сжатия, даваемого на типичных изображениях даже наиболее эффективными алгоритмами компрессии без потери информации.

Алгоритм сжатия JPEG состоит из ряда следующих друг за другом этап обработки цифрового массива, описывающего цветное изображение.

На первом этапе исходное изображение делится на макроблоки размер 16x16 точек изображения (пикселей), которые далее будут обрабатываться по отдельности. Данная операция позволяет на следующих этапах существенно снизить общий объем вычислений по сравнению со случаем обработки вся изображения как единого массива. Выигрыш в объеме вычислений прямо пропорционален числу макроблоков, на которые делится изображение, но выбор их размера менее 8x8 пикселей на реальных изображениях приводит к снижению достижимой степени сжатия.

На втором этапе осуществляется переход к более подходящему для сжатия способу представления цветов. Как известно, в компьютерной графике цвета обычно задаются в трехмерной системе координат и описываются как комбинации трех равноправных «основных» цветов: красного (R), зеленого (G) и синего (В). Однако особенностям человеческого зрения более соответствует другая система координат: YCbCr, где Y — сигнал яркости, а Сb и Сr - насыщенность синего и красного тонов. Данная совокупность параметров без каких – либо искажений описывает исходное цветное изображение, но при этом делит его на две части: черно-белую (сигнал Y) и цветную (Сb и Сr). Именно таким образом в глазу человека и воспринимаются цветные изображения с помощью двух типов сенсоров: палочек, ориентированных на яркостную составляющую и колбочек — анализирующих цвет. Число палочек в глазу приблизительно в 20 раз превышает число колбочек, что обусловливает его значительно большую чувствительность к перепадам яркости в изображении, чем цвета. А отсюда возникает возможность передачи цветовой информации с меньшей детальностью без ущерба для восприятия итогового изображения. Надо отметить, что именно подобный метод передачи информации использован и в широко распространенных системах цветного телевидения NTSC, PAL и SECAM.

На третьем этапе обработки производится так называемое «прореживание», использующее описанную выше особенность человеческого. Для этого, в полученных на предыдущем этапе матрицах значений насыщенности» синего и красного цветов отбрасываются все четные столбцы и строки, в результате чего исходные макроблоки размером 16x16 отсчетов превращаются в блоки 8x8. Данная операция является первой, при которой вносятся необратимые изменения происходит потеря сразу 75% информации о распределении цветов в изображении, однако с позиций заметности для глаза такое сокращение объема данных оказывается вполне допустимым.

Матрица отсчетов яркости на этом этапе остается без изменений, но для обеспечения дальнейшего единообразия в обработке исходный макроблок из 16x16 отсчетов делится на четыре части, также образуя блоки размером 8x8.

На следующем этапе обработки в стандарте JPEG использован чисто математический прием под названием «Дискретное косинусное преобразование» (Discrete Cosine Transform DCT), предложенный В. Ченом в 1981 году. По сути, этот метод сходен с более известным двумерным дискретным преобразованием Фурье и отличается от него только используемыми базисными функциями. Достоинством DCT по сравнению с другими аналогичными ортогональны­ми преобразованиями (синусным, Фурье, Адамара, Хаара и др.) является быстрая сходимость ряда, что обеспечивает меньшую погрешность ошибки преоб­разования.

Основу для применения DCT составляет тот факт, что в реальных изо­бражениях величины соседних отсчетов вдоль строки, а также в соседних стро­ках – очень  похожи друг на друга (коэффициент корреляции между ними со­ставляет 0,9...0,98). Другими словами, полученные на предыдущем этапе обра­ботки матрицы состоят из отсчетов, почти равных между собой по величине, а DCT преобразует информацию о величинах отсчетов в информацию о скорости изменения этих величин. В результате этого исходная матрица отсчетов пре­вращается в такую же по размерам матрицу частотных коэффициентов, кото­рые уже не имеют такой прямой геометрической связи с положением отсчетов сигнала в изображении. Они могут рассматриваться как двумерный спектр ско­ростей изменения изображения в горизонтальном и вертикальном направлени­ях. Достоинством такой формы записи является то, что для реальных изобра­жений большинство значащих членов в новой матрице оказывается сгруппиро­вано в левом верхнем углу (область малых скоростей изменения величин отсче­тов в изображении), а правая нижняя часть матрицы (область больших скоро­стей) содержит члены с малыми значениями или вообще нулевые.

Дискретное косинусное преобразование является обратимым и по новой матрице может быть полностью (с точностью до погрешности преобразования, которой на практике в большинстве случаев можно вообще пренебречь) восстановлена исходная. Но полученная новая форма записи информации об изображении позволяет в дальнейшем существенно сократить итоговый объем данных.

Одной из предпосылок Для этого является то, что для правильного восприятия большинства реальных фотографических и телевизионных изображений характеризующихся мягкими переходами яркости и смены оттенков, глазу оказываются значительно важнее низкочастотные компоненты DCT, нежели высокочастотные. Это свойство глаза используется на следующем этапе обработки, где применяется неравномерное квантование частотных коэффициентов.

При этом, низкочастотные компоненты квантуются с большей детальностью, а высокочастотные – с меньшей. Применение более грубого квантования высокочастотных компонент DCT матрицы позволяет описать изображение меньшим общим количеством бит. Кроме этого, частотные коэффициенты, значения которых не превышают некоторую заданную пороговую величину, вообще принимаются равными нулю. Подобная потеря высокочастотных компонент матрицы DCT (при задании очень большой величины порога) может приводить к появлению искажений в восстановленном изображении, наиболее сильно проявляющихся в так называемом «дрожании» линий на границах резких переходов яркости и цвета.

Другой вид искажений, связанный с процессом квантования, обусловлен тем, что округление частотных коэффициентов в разных матрицах производятся независимо, поэтому в восстановленном изображении значения яркости и цветового тона на границах таких «квадратиков» могут немного не совпадать и проявляться в мозаичности получаемого изображения.

Дальнейшие операции алгоритма JPEG не связаны с потерями информации и включают: последовательное считывание в зигзагообразном порядке квантованных значений матрицы DCT, а также два этапа энтропийного сжатия использующих метод кодирования длин серий и код Хаффмана. Необходимо отметить, что именно на этом этапе и обеспечивается основное сжатие информации, но оно оказывается возможным только благодаря достигнутой на предыдущих этапах «сортировке» исходных данных.

Суть зигзагообразного считывания заключается в том, что матрица частотных коэффициентов преобразуется в последовательный код. При этом счи­тывание членов матрицы начинается с левого верхнего угла и далее последова­тельно идет по диагоналям до правого нижнего угла. В результате этого все значащие члены матрицы группируются в начале полученной кодовой группы а в ее конце, как правило, образуется непрерывная последовательность нулей. Здесь возникает первая возможность для сжатия кода: все нули в конце могут быть просто отброшены, а при декодировании — дописаны, исходя из того, что общее число членов в кодовой группе должно быть равно 64. Все другие непрерывные последовательности одинаковых величин сжимаются стандартным ме­тодом кодирования длин серий, когда сама последовательность величин заме­няется всего двумя параметрами: значением величины и числом членов в по­следовательности. На последнем этапе все полученные величины кодируются кодом Хаффмана, относящимся к группе статистических кодов. Его суть за­ключается в том, что наиболее часто встречающимся величинам присваиваются самые короткие кодовые последовательности, а более редким – длинные. В итоге среднее число бит, приходящееся на один кодируемый символ, оказывается минимальным, приближающимся к энтропии источника, что обеспечив наиболее компактную форму отображения информации.

При декомпрессии вся описанная последовательность операций выполняется в обратном порядке.

Приведение столь подробного описания алгоритма сжатия, реализованного в стандарта JPEG,  целесообразно потому, что этот мощный алгоритм в настоящее время используется уже в целом ряде различных технологий передачи, обработки и хранения цифровых изображений.

JPEG – 2000 MJPEG и другие. В 1998 году из состава группы JPEG выделилась группа JBIG (Joint Bi-level Image Group), разрабатывающая стандарты представления графической информации для специфических применений. Разработанные этой группой алгоритмы G3 и G4 для факсимильной передачи псевдополутоновых и цветных изображений стали частью стандартных протоколов факсимильной связи, утвержденных ITU. А тем временем группа JPEG разработала новую версию стандарта JPEG-2000, нацеленную на решение проблем, связанных с компромиссом между коэффициентом сжатия информации и качеством изображения.

Технология сжатия JPEG стала применяться и для передачи подвижных изображений. Так, например, формат Motion JPEG (или просто MJPEG) описывает цифровой видеосигнал, представляющий собой последовательность изображений, сжатых по стандарту JPEG. Алгоритм сжатия JPEG также нашел свое отражение и в современных стандартах видеоконференцсвязи:  Н.261, Н 263 Н 320 Н.323, Н.324. Но главное — JPEG – сжатие является основой алго­ритма для обработки сигналов изображения в стандартах MPEG.

 

10.2. Стандарт кодирования видеоинформации MPEG-1

 

Работы над стандартом MPEG-1 были начаты в 1988 году. Первоначально этот стандарт предназначался для записи синхронизированных между собой видеоизображения и звукового сопровождения на существующие в то время цифровых носителях, таких как CD-ROM диски, DAT-кассеты и т. д., с макси­мальной скоростью передачи данных порядка 1,5 Мбит/с. Кроме этого, этот стандарт должен был обеспечивать произвольный доступ к информации и воз­можность ее просмотра в обоих направлениях. В дальнейшем MPEG-1 получил достаточно широкое распространение во многом благодаря дискам VideoCD.

Первый вариант спецификации MPEG-1 был опубликован в январе 1992 года, а в 1993 году MPEG-1 был принят в качестве стандарта ISO/IEC 11172-2. Несколько позже были разработаны и стандартизированы сопутствующие спецификации для аудиоданных – MPEG-1  Audio Layer I, Layer II и Layer III (ISO/IEC 11172-3). Последним шагом была разработка протокола синхронизации пакетирования аудио- и видеоданных в формате MPEG-1.

При разработке стандарта были приняты следующие ограничения, опре­делившие его область применения:

■  размер изображения по горизонтали < 768 пикселей;

■  размер изображения по вертикали < 576 строк;

■  число макроблоков < 396;

■  частота кадров < 30 Гц;

■  развертка прогрессивная;

■   скорость цифрового потока < 1,856 Мбит/с.

На первый взгляд может показаться, что нет особых препятствий пользованию MPEG-1 для кодирования сигналов вещательного телевидения – число строк и элементов в строке даже выше, чем требуется для изображения стандартной четкости. Напомним, что это 720x576 или 720x480 пикселей, в зависимости от стандарта разложения. Ограничивающим параметром оказывается, как ни странно, число макроблоков в видеокадре. Для обработки стандартного телевизионного сигнала надо иметь (720:16) х (576:16) = 1620 макроблоков/кадр, а стандарт предусматривает только 396, что соответствует формату разложения не выше CIF (352 х 288 пикселей). Второе препятствие – отсутствие чересстрочной развертки, принятой сегодня во всех телевизионных системах стандартного качества.

В связи с жестким ограничением максимальной скорости цифрового , потока, типовым видеоформатом для MPEG-1 явился Common Intermediate Format (CIF), содержащий 240 строк по 352 точки в строке при 30 кадрах в секунду, или 288 строк и 352 точки в строке — при 25 кадрах. Подобное изображение приблизительно соответствует качеству картинки бытовой видеозаписи формата VHS и имеет разрешение в четыре раза ниже стандартного изображения вещательного телевидения. Для согласования размеров изображения со стандартным, алгоритм сжатия MPEG-1 предусматривает процедуру «прореживания» исходного телевизионного сигнала по вертикали и горизонтали, при которой исключается каждая вторая строка и каждый второй отсчет в оставшихся строках. При декомпрессии отброшенные значения восстанавливаются путем интерполяции.

Алгоритм сжатия изображения. Алгоритм компрессии изображений MPEG-1 разрабатывался принципиально ориентированным на обработку по­следовательностей кадров и использование высокой избыточности информации (до 95% и более), содержащейся в реальных изображениях, разделенных малыми временными интервалами. Действительно, фон в смежных кадрах обычно меняется мало, а все действие связано со смещениями относительно небольших фрагментов изображения. По этой причине необходимость передачи полна информации о кадре изображения возникает только при смене сюжета, а в остальное время можно ограничиваться выделением и передачей разностной ин­формации, характеризующей направления и величины смещения элементе изображения, появление новых объектов или исчезновение старых. Причем такие различия могут выделяться как относительно предыдущих, так и относительно последующих кадров.

Именно такая логика и была реализована в алгоритме MPEG-1, что привело к применению в нем кадров трех типов:

■   I (Intra) - «самостоятельных», играющих роль опорных и сохраняющих полный объем информации о структуре изображения; 

■   Р (Predicted) - «предсказываемых» и несущих информацию об изменениях в структуре изображения по сравнению с предыдущим кадром (типа I или P);

■   B (Bi-directional Interpolated) — «двухсторонней интерполяции», сохраняющих только самую существенную часть информации об отличиях от предыдущего и последующего изображений.

Процесс кодирования изображения в MPEG-1 начинается с создания исходного (Intra) кадра, формируемого с применением только внутрикадрового сжатия по технологии JPEG.

Предсказываемые Р – кадры могли бы формироваться просто за счет вычисления их прямой разности относительно предыдущего кадра. Однако такая технология малоэффективна в случаях, например, плавного смещения всего изображения – разностная информация оказывается практически равной объему кадра. В этих условиях значительно лучшие результаты дает использованный в MPEG -l метод оценки перемещений. Для его реализации кадр изображения делится на блоки размером 16x16 пикселей и каждому блоку предыдущего кадра в новом кадре ищется наиболее соответствующий блок, и вычисляются величины векторов смещения для всех блоков. Далее предсказания каждого блока, полученные из предшествующего кадра с помощью соответствующих  им векторов смещения, сравниваются с фактическими блоками. Выявленные разности изображений (ошибка предсказания) вместе со значениями векторов смещения, служат информацией для построения предсказываемого кадра, что оказывается значительно экономней передачи содержимого самих блоков.

Алгоритмы кодирования В-кадров зависят от характера картинки. В MPEG-1 предусмотрено четыре способа их кодирования.

■  Первый, самый простой, - компенсация движения и предсказание вперед по предшествующему I или Р - кадру.

■  При появлении в кодируемом В-кадре новых объектов применяется пред­сказание назад по ближайшему последующему I или Р- кадру вместе с компен­сацией движения.

■  Третий алгоритм предусматривает компенсацию движения и двунаправ­ленное предсказание по предшествующему и последующему I или Р- кадрам.

■  Четвертый алгоритм основан на внутрикадровом предсказании без ком­пенсации движения (он обычно используется при резкой смене плана или вы­соких скоростях движения отдельных фрагментов картинки).

■  Польза В-кадров проясняется при рассмотрении задней границы движу­щегося объекта. При его движении фон открывается все больше, и для передачи го участка фонового изображения выгоднее воспользоваться данными более позднего кадра (рис.10.1). Кодер рассчитывает как прямое, так и обратное предсказание и посылает декодеру данные, имеющие наименьший объем.

Алгоритм сжатия работает следующим образом. Видеокадр разбивается на макроблоки размером 16 х 16 отсчетов, каждый из которых содержит по 4 блока отсчетов яркости размером 8x8 пикселей и по одному блоку отсчетов сигналов Сb и Сr (с учетом понижающей дискретизации) (рис. 10.2).

При кодировании макроблока в составе 1-кадра вычисляются коэффициенты ДКП,  затем они квантуются с использованием таблицы квантования, имеющей в памяти и кодера, и декодера и применяемой «по умолчанию» (Рис.10.3). Кодер может изменить элемента таблицы, тогда он сообщает об этом декодеру и посылает новые данные

 

Если кодируется макроблок из состава предсказанного кадра, ищется сопряженный блок опорного кадра, его значения поэлементно вычитаются из элементов кодируемого блока, и уже для этих разностей вычисляются коэффициенты ДКП из затем производится их квантование. Таблица квантования для макроблоков из Р- и В – кадров, применяемая по умолчанию, содержит число 16 во всех позициях, но также может быть изменена кодером. Отметим, что при поиске сопряженных блоков используются только отсчеты яркости. Полученные при этом векторы перемещения применяются и при кодировании блоков отсчетов цветоразностных сигналов.

Важным звеном алгоритма кодирования остается обеспечение постоянства выходной скорости цифрового потока. Отсчеты сигнала от источника поступают с постоянной скоростью, однако на выходе квантователя скорость посту­пают с поступления битов может варьироваться в широких пределах. Она зависит от типа видеокадра  (понятно, что I-кадр требует значительно больше битов, чем Р- и В-кадры), от его содержания («спокойный» кадр с однородными участками требует меньше битов, чем кадр с выраженной мелкозернистой структурой). Попытка кодировать все кадры одинаковым числом битов приведет к изменению качества изображения от кадра к кадру, а это крайне неприятно для телезрителя.

Известно, что единственным средством выравнивания скорости потока является применение буферной памяти в кодере и декодере. Буфер может заполняться со стороны квантователя неравными порциями, а опустошаться в сторону канала равномерно, обеспечивая постоянную скорость цифрового потока. Но и здесь не все так просто. Быстрая смена сюжетов и связанное с этим увеличение доли 1-кадров вскоре приведет к переполнению буфера, а длинный сюжет без движения - к его опустошению. Простое увеличение размера буфера вызовет возрастание задержки сигнала в кодере, что в некоторых случаях ме­шает телезрителям (беседа двух телеведущих в разных студиях).

Для сохранения приемлемого качества изображения при постоянной ско­рости потока необходимо, во-первых, регулировать шкалу квантования и, во-вторых, адаптивно распределять имеющийся ресурс битов между разными ти­пами кадров с учетом их сложности. Эти задачи решаются в кодере специаль­ным устройством - контроллером битов. Адаптивное управление процессом квантования осуществляется умножением всех элементов матрицы на масштабирующий множитель величиной от 8 до 1/4, общий для всех отсчетов макро­блока, который также сообщается декодеру. Величина множителя больше 1 оз­начает увеличение доли битов, выделяемой данному макроблоку или кадру, меньше 1 - соответствующее уменьшение.

Перераспределение ресурса между I-, Р- и В-кадрами производится коде­ром на основе оценки соотношения битов в предыдущих кадрах. Некоторые кодеры осуществляют кодирование «в два прохода», оценивая на первом проходе сложность видеокадра, выделяя ему на основе этой оценки определенный ресурс битов и уже на втором проходе кодируя отсчеты с учетом выделенного ресурса.

Полученные последовательности I, Р и В-кадров далее объединяются в фиксированные по длине и структуре группы кадров - GOP (Group of Pictures). Каждая такая группа обязательно начинается с I-кадра и с определенной периодичностью содержит Р - кадры. Ее структуру описывают как M/N, где М – общее число кадров в группе, а Nинтервал между Р -кадрами.

Итоговый поток данных в значительной степени определяется составом GOP и в зависимости от назначения и требуемого качества изображения (видеофильм, мультимедиа и т. п.) используется различный состав GOP. Так, типичная для VideoCD IPB группа 15/3 имеет вид: IBBPBBPBBPBBPBB. Здесь каждый В-кадр восстанавливается по окружающим его Р -кадрам (в начале и а конце группы - по I и Р), а каждый Р –кадр – по предыдущему Р или 1-кадру. Как уже было сказано, I-кадры являются полностью самостоятельными, служат опорными для Р и В-кадров группы и восстанавливаются независимо от других Достигаемое в такой GOP сжатие, по сравнению с последовательностью только из I-кадров (при одинаковом качестве изображения), составляет около четырех раз.

Несмотря на свою эффективность, стандарт MPEG-1 не лишен недостат­ков. Например, также как и в JPEG, на однотонном фоне фактически всегда за­метна блочная структура. Аналогичная структура проявляется и в быстро ме­няющихся сценах.

Алгоритм MPEG-1 допускает использование кадров не только формата CIF, но и с другими разрешениями, вплоть до 4095x4095 пикселей. Однако субъективная оценка качества получаемого изображения показывает, что стан­дарт MPEG-1 можно эффективно использовать только приблизительно на ин­тервале удвоения разрешения и формирования потока видеоданных со скоро­стями до 3,5 Мбит/с. Дальнейшее повышение качества изображения достигает­ся уже только при кодировании по стандарту MPEG-2.

 

Сжатие звука. Для компрессии звука в стандарте MPEG-1 также была выбрана технология с потерей данных и, соответственно, с некоторым ухудше­нием качества по сравнению с исходным.

Основу созданного алгоритма составила так называемая «психоакусти­ческая модель», представляющая собой изученные свойства восприятия звуко­вых сигналов слуховым аппаратом человека. При этом для сжатия используется методика «кодирования воспринимаемого» (perceptual coding) при которой из исходного звукового сигнала удаляется информация, малозаметная для слуха. В результате, несмотря на изменение формы и спектра сигнала, его слуховое вос­приятие практически не меняется, а степень сжатия оправдывает незначитель­ное уменьшение качества.

Основные приемы удаления части информации базируются на особенно­сти человеческого слуха, называемой маскированием. Суть эффекта маскиро­вания заключается в том, что при наличии в спектре звука ярко выраженных пиков (преобладающих гармоник) более слабые частотные составляющие, ле­жащие в непосредственной близости от них, слухом практически не восприни­маются. Ослабляется также чувствительность человеческого слуха и на перио­ды в 100 мс после и 5 мс до* возникновения сильных (особенно шумовых) зву­ков. Кроме этого, ухо не способно различать и сигналы, по мощности лежащие ниже определенного уровня, (разного для разных частотных диапазонов). Учет этих особенностей при кодировании позволяет существенно экономить на наи­менее значимых, с точки зрения восприятия человеком, деталях звучания.

Технически, процесс компрессии включает несколько этапов. Первона­чало входной цифровой поток звукового сигнала очищается от заведомо неслышных составляющих (слабые звуки, низкочастотные шумы, наивысшие гармоники) и разбивается на мелкие кадры, каждый из которых затем преобразуется в спектральное представление и делится на ряд частотных полос. Внутри каждой из таких полос производится описанное выделение и удаление маскируемых звуков, обеспечивающее общее сокращение объема данных сразу более чем в два раза. Далее каждый кадр подвергается адаптивному кодированию прямо в спектральной форме.

При декодировании серия сжатых мгновенных спектров сигнала преобра­зуется обратно в обычную цифровую волновую форму.

Стандартом MPEG-1 предусматривается три уровня компрессии моно и стерео звуковых сигналов: Layer I, II и Ш. Эти уровни различаются достигае­мой степенью сжатия и качеством звучания получаемых цифровых потоков. Layer I обеспечивает наименьшую компрессию (1:4) при потоке данных 192 кбит/с на канал. Более эффективный Layer II дает сжатие до 6-8 раз и поток — 96-128 кбит/с на канал. Layer III (более известный как формат МРЗ) обеспечи­вает вполне приемлемое звучание уже при скорости 56-64 кбит/с на канал, что соответствует компрессии в 10-12 раз.

Подробно механизм сжатия звука изложен в первой части пособия (глава 4)

 

 

10.3. Стандарт кодирования видеоинформации MPEG-2

 

К 1991 г. основные задачи по разработке стандарта MPEG-1 были реше­ны, однако предлагались все новые и новые технические решения, позволяю­щие расширить возможности стандарта. В связи с этим было решено «заморо­зить» работу над MPEG-1 и одновременно начать разработку нового стандарта, MPEG-2, охватывающего более широкий круг применений, включая вещатель­ное телевидение. С самого начала была поставлена задача обеспечить совмес­тимость с MPEG-1, то есть дать возможность декодеру MPEG-2 принимать цифровой поток MPEG-1. Когда говорят о совместимости двух систем, под со­вместимостью «вперед» (forward compatibility) понимают способность старой системы воспринимать сигналы новой системы, совместимость «назад», или обратная совместимость (backward compatibility), означает способность новой системы воспринимать сигналы старой. На подготовительном этапе в качестве основы для MPEG-2 тестировались 39 алгоритмов цифрового сжатия, в том числе и существенно отличных от MPEG-1. Но предпочтение было отдано по­следнему, не в последнюю очередь благодаря удобству достижения совмести­мости.

MPEG-2 был принят как международный стандарт под номером ISO/IEC 13818 в 1996 г. и дополнен в 1997 г. Коротко его можно охарактеризовать как MPEG-1 со значительными улучшениями, включающими обработку чересст­рочных изображений, набор уровней и профилей, масштабируемый синтаксис, системный уровень с программным и транспортным потоками, новые средств» кодирования звука и ряд других. На самом деле MPEG-2 значительно сложнее своего предшественника. Достаточно сказать, что при равной скорости потока кодер MPEG-2 примерно на 50% сложнее кодера MPEG-1. Успех MPEG-2 j значительной мере определил и прекращение работ над стандартом MPEG-3 предназначавшимся для телевизионных систем высокой четкости (ТВЧ). Оказалось, что синтаксис MPEG-2 пригоден для высоких разрешений, больших скоростей и полных компонентных сигналов без прореживания, а потому может использоваться и для ТВЧ.

Стандарт MPEG-2 называется «Информационные технологии - Обобщенное кодирование движущихся изображений и сопровождающей звуковой информации» и содержит 9 частей, описывающих различные компоненты цифрового потока и средства поддержки.

13818-1 «Системы» описывает объединение одного или нескольких ЭП видео, звука и других данных в одно- или многопрограммный поток, пригодный для записи или передачи.

13818-2 «Видео» специфицирует средства компрессии видеоданных и процесс декодирования, необходимый для восстановления изображения.

13818-3 «Звук» представляет обратно совместимое расширение звукового стандарта MPEG-1.

13818-4 «Соответствие» и 13818-5 «Моделирование программного обес­печения» описывают процедуры испытаний на соответствие требованиям час­тей 1,2, 3 и дают примеры реализации программного обеспечения.

13818-6 «DSM-CC» стандартизует набор протоколов по управлению циф­ровыми потоками MPEG-1 и MPEG-2.

13818-7 «ААС» специфицирует алгоритм кодирования многоканального звука ААС, не совместимый с MPEG-1.

13818-9 «Интерфейс реального времени для декодеров» описывает ин­терфейс реального времени для декодеров транспортного потока.

13818-10 «Соответствие для DSM-CC» рассматривает вопросы соответст­вия в применении к протоколу DSM-CC.

Часть 8 предназначалась для кодирования видео с разрешением 10 бит, но не вызвала практического интереса и была исключена.

 

10.3.1. Особенности алгоритма обработки видеоданных

 

Наиболее существенное отличие алгоритма обработки видео в MPEG-2 от соответствующего алгоритма MPEG-1 - возможность обработки чересстрочных изображений. В MPEG-1 для кодирования таких изображений приходилось предварительно объединять два поля в один кадр и только после этого подавать сигнал на вход кодера. Однако при наличии движения эта процедура приводила к заметным искажениям. В MPEG-2 введена концепция полевого и кадрового кодирования. При полевом кодировании два поля одного кадра называю верхним и нижним и могут кодироваться раздельно как самостоятельные изображения в этом случае каждое поле разбивается на непересекающиеся макроблоки 16 х 16 пикселей, и к ним применяется ДКП. На изображении эти макроблоки занимают область высотой 32 строки. Кадровое кодирование предполагает построчное объединение двух полей в один кадр и обработку его как обычного изображения с прогрессивным разложением.

MPEG-2 определяет два типа ДКП для макроблоков: кадровое и полевое. Кадровое ДКП действует аналогично MPEG-1: блок отсчетов яркости 16 х 16 елей разбивается на 4 блока 8x8 пикселей, в соответствии с их расположением. Полевое ДКП берет 8 строк из верхнего поля для верхних двух блоков и 8 строк из нижнего поля для нижних блоков, образуя верхнее и нижнее поля макроблока, как показано на рис. 10.4; цветоразностные блоки предполагаются принадлежащими всегда к верхнему полю. Полевое ДКП более эффективно при существенном различии между полями, например, при наличии движения по вертикали. Кадровое ДКП позволяет лучше передать мелкие детали изображе­ния Заметим, что оба вида преобразования могут использоваться в одной ви­деопоследовательности. Кадры, кодируемые как два поля, всегда используют полевое ДКП, кадровое кодирование может использовать оба вида ДКП, пере­ходя от одного к другому на уровне макроблока.

 

Обработка чересстрочных изображений вносит существенные отличия и в процесс предсказания. Кадровое предсказание, как и в MPEG-1, оценивает наилучшее сопряжение макроблоков 16x16 пикселей в текущем и опорном кадрах. Полевое предсказание ищет сопряжение для блока 16x16 пикселей, взятого из текущего поля, в двух предыдущих полях и выбирает лучший результат. Как и при ДКП, полевое кодирование может использовать только полевое предсказание, у кадрового кодирования возможности шире — допускается применение кадрового предсказания или полевого, в последнем случае ищется сопряжение отдельно верхнего и нижнего полей макроблока в каждом из двух полей опорного кадра и выбирается лучший результат.

Более высокую точность компенсации движения обеспечивает разбиение макроблока на два поля. При этом определяются два вектора перемещения дц, верхнего и нижнего полей макроблока размерностью 16x8 пикселей, которые передаются декодеру, а он использует их для более точного восстановлена) изображения.

MPEG-2 ввел новый режим компенсации движения для эффективного устранения временной избыточности между полями, названный «Двухступенчатая компенсация с уточнением векторов» (Dual prime motion compensation). В данном режиме ищутся вектор перемещения для области изображения 16x8 пикселей из одного поля и дополнительный вектор приращения (принимающий значения минус 1, 0, 1 по осям х и у) для той же области, но в поле другой четности (рис. 10.5). В декодере вектор приращения используется для уточнения отсчетов предсказанного блока.

 

MPEG-2 допускает значительную гибкость и в формировании I-, P-, В- кадров. Кодированный 1 – видеокадр может состоять из I-кадра с прогрессивным разложением, или пары I- полей, или I- поля и предсказанного из него Р –поля. Аналогично Р- видеокадр может содержать Р- кадр, или два Р- поля, В- видеокадр – В – кадр или пару В-полей.

Отметим еще несколько отличий в кодировании видеоданных.

1. MPEG-2 в большинстве случаев использует в качестве сигнала источника компонентный сигнал «4:2:0», но расположение отсчетов в поле изображения несколько отличается от MPEG-1.

2. MPEG-1 допускает квантование постоянной составляющей ДКП только с рядностью 8бит, в MPEG-2 в некоторых случаях допускается 9- или 10-битовое квантование.

3.  Для предотвращения потери макроблоков, кодированных с внутрикадровым предсказанием, применяется маскирование - подстановка вместо утерянного макроблока ближайшего, схожего по параметрам. Для этого в потоке ведается управляющий код «пропущенного макроблока».

4.    Предусмотрена   передача   информации   режима   панорамирования (рan&scan), указывающей декодеру, какую часть изображения формата 16:9 отображать на экране с форматом 4:3. Информация посылается в каждый кадр я позволяет смещать изображение с точностью до 1/16 пикселя.

 

10.3.2. Уровни и профили стандарта MPEG-2

 

Даже в рамках одного стандарта, как показывает практика, передача сиг­налов телевидения - и цифровое здесь не исключение, ведется на разных уров­нях качества. То же самое можно сказать и о ТВ приемниках. Жесткие, а глав­ное узкие допусковые интервалы не жизненны, поскольку лишают систему гибкости, приспособляемости к разным условиям функционирования с ориен­тацией на различные слои потребителей. При этом любая перспективная систе­ма должна иметь резервы для перехода на более высокие уровни качества. Эти и многие другие соображения и требования легли в основу очень важного до­кумента: ISO/IEC 13818-2.

В этом документе определено, что стандарт MPEG-2 - это целое семейст­во взаимносогласованных совместимых цифровых стандартов информационно­го сжатия

ТВ – сигналов с различной степенью сложности используемых алго­ритмов. Поэтому в рамках стандарта MPEG-2 была разработана система про­филей и уровней. Профиль — это подмножество стандарта для специализиро­ванного применения, задающее алгоритмы и средства компрессии. Уровни внутри каждого профиля связаны с параметрами компрессируемого изображе­ния.

Градации качества ТВ-изображения для вещательных систем в стандарте ISCVIEC 13818-2 устанавливаются введением четырех уровней для формата разложения строк ТВ-изображения и пяти профилей для форматов кодирования сигналов яркости и цветности. Общая идеология построения стандарта MPEG-2 поясняется таблицей 10.1.

Расположенный в нижней части таблицы уровень называется «низким уровнем» и ему соответствует новый класс качества ТВ-изображения, которое вводится в стандарте MPEG-2 - телевидение ограниченной четкости. В этом случае в кадре ТВ-изображения содержится 288 активных строк (в 2 раза меньше, чем в вещательном телевидении) и каждая строка дискретизируется на 352 отсчета.

 

Кодирование сигналов телевидения вещательного стандарта выполняется в соответствии с основным уровнем, то есть с форматом разложения на 576 ак­тивных строк в кадре, которые кодируются с использованием 720 отсчетов на строку.

Высокий уровень - 1440 поддерживает ТВ-изображения высокой четко­сти с разрешением 1440 х 1152 элементов.

Высокий уровень - 1920 поддерживает ТВ-изображения высокой четко­сти широкого формата с разрешением 1920 х 1152 (HDTV-plus). В обоих «высо­ких» уровнях кадр ТВ-изображения содержит 1152 активные строки (вдвое больше, чем в вещательном телевидении). Эти строки дискретизируются соот­ветственно на 1440 или 1920 отсчетов.

В стандарте используются 5 профилей, которым соответствуют 5 наборов функциональных операций по обработке (компрессии) видеоданных.

■  Профиль в котором используется наименьшее число функциональных операций по компрессии видеоданных, назван простым. В нем при компрессии видеоданных используется компенсация движения изображения и гибридное ДКП.

■  Следующий профиль назван основным. Он содержит все функциональные операции простого профиля и одну новую: предсказание по двум направлениям. Эта новая операция, естественно, повышает качество ТВ-изображения.

■  Следующий за основным назван профилем с масштабируемым отношением сигнал-шум. Термин «масштабирование», в данном случае, означает возможность обмена основных показателей  системы,  способность воспро­изведения ТВ – изображений из части полного потока видеоданных. Этот про­филь к функциональным операциям основного профиля добавляет новую -масштабирование. Основная идея — повышение устойчивости цифрового те­левидения и сохранение работоспособности при неблагоприятных условиях приема. Операция масштабирования позволит в рассматриваемом случае повы­сить устойчивость системы за счет некоторого снижения требований к допус­тимому уровню отношения сигнал-шум в воспроизводимом ТВ-изображении.

При масштабировании потоки видеоданных разделяют на две части. Одна из них несет наиболее значимую часть информации - ее называют основным сигналом. Вторую часть, несущую менее значимую информацию, называют до­полнительным сигналом. Декодирование только одного основного сигнала по­зволяет получить ТВ-изображение с пониженным отношением сигнал-шум от­носительно исходного значения.

И все же, что можно извлечь из идеи деления потока данных на более и менее значимые части? А все дело в защите системы от ошибок. Помехоустой­чивое кодирование требует введения дополнительных бит, что повышает об­щий поток информации. Задача упрощается, когда более мощная защита при­меняется только к части информации и тем самым соблюдается разумный ба­ланс между уровнем потока видеоданных и степенью их защиты. При неблаго­приятных условиях приема (например, при низкой напряженности радиополя, при приеме на комнатную антенну и т.п.) сохраняется возможность устойчиво­го декодирования более защищенного основного сигнала, а неустойчиво вос­принимаемый дополнительный сигнал просто отключается. Это ведет к росту уровня шума, зато система остается работоспособной.

Бывают ситуации, когда сигналы приходится передавать по каналам с ог­раниченной пропускной способностью. Деление потока видеоданных на два, позволяет использовать и «плохие» каналы, ограничивая передачу основным сигналом.

■  Четвертый профиль назван специально масштабируемым  профилем. Здесь, естественно, сохранены все операции предшествующего профиля и добавлена новая — разделение потока видеоданных по критерию четкости ТВ- изображения. Этот профиль обеспечивает переходы между ныне действующими вещательными системами и ТВЧ. С этой целью видеоданные сигнала ТВЧ разделяются на три потока. Первый - это основной (значимый) поток видеоданных например, по стандарту разложения на 625 строк. Второй поток несет дополнительную информацию об изображении с числом строк до 1250. Одновременное декодирование первого и второго потоков видеоданных позволяет получить ТВ-изображение высокой четкости, но с пониженным отношением сигнал-шум. В третьем потоке сосредоточена менее значимая информация, его декодирование позволяет повысить отношение сигнал-шум в видеоканале до уровня, принятого в ТВЧ. Обычно первый поток видеоданных, представляющих сигнал 625-строчного ТВ, - это 6 Мбит/с, дополняющий его до ТВЧ - 6 Мбит/с, а повы­шающий отношение сигнал-шум до уровня, когда шумы визуально незаметны -12 Мбит/с.

Стандартом MPEG-2 потенциально предусмотрена масштабируемость по времени, позволяющая получать от одного источника видеоинформации ТВ-изображения с двумя уровнями разрешающей способности по времени. Напри­мер, основной поток видеоданных обеспечивает воспроизведение ТВ-изображения с частотой кадров 25 Гц и чересстрочной разверткой. Добавление дополнительного потока видеоданных к основному позволяет получить ТВ-изображение с частотой кадров 50 Гц и прогрессивной разверткой.

Таким образом, стандарт MPEG-2 предусматривает возможность органи­зации потоков видеоданных как с масштабируемостью, так и без нее. Однако, масштабируемость, заложенная в стандарте MPEG-2, пока редко встречается в практических реализациях цифровых ТВ систем, но она является важной пред­посылкой их дальнейшего развития. В рассмотренных четырех профилях при кодировании сигналов яркости и цветности используется формат представле­ния видеоданных 4:2:0, в котором число отсчетов сигналов цветности по срав­нению с сигналом яркости уменьшается в два раза не только по горизонталь­ным, но и по вертикальным направлениям.

■  Пятый профиль называется высшим, и он включает в себя все функцио­нальные операции специального профиля 4:2:2, при котором число отсчетов сигналов цветности в вертикальных направлениях остается тем же, что и у сиг­нала яркости. В этом случае коэффициент компрессии минимален, а качество изображения наивысшее.

Приведенные в таблице 10.1 пять профилей и четыре уровня образуют 20 возможных комбинаций видеосигнала, из которых, вероятнее всего, только 11 будут необходимыми. Для этих комбинаций (согласованные точки) в таблице указаны максимальные значения скорости передачи видеоданных в Мбит/с.

Для всех стандартизованных точек указаны максимальные потоки видео­данных, которые позволяют получить ТВ-изображение, свободное от каких-либо дефектов. В иных случаях они могут проявиться в процессе кодирова­ния/декодирования видеосигнала. Используемые в конкретных кодерах потоки видеоданных могут быть меньше (в несколько раз) указанных значений. Выбор уровня компрессии и, в конечном итоге, уровня потока зависит от допустимой степени искажений ТВ-изображения.

Таким образом, стандарт MPEG-2 позволяет гибко менять скорость пере­дачи видеоданных в очень широких пределах. Надо заметить, что системы кодирования стандарта MPEG-2 могут работать как с чересстрочной, так и с прогрессивной развертками, при частоте полей 50 или 60 Гц. Для каждой стандартизованной точки в таблице оговорено число отсчетов сигнала яркости на активной части строки. Рассмотренные комбинации параметров информационного кодирования пригодны для работы с различными цифровыми трактами.

Стандарт MPEG-2 принципиально нацелен в будущее. Большинство вы­пускаемых в настоящее время декодеров в интегральном исполнении относится к основному профилю и основному уровню (MP@ML), рассчитанных на ТВ-изображение с чересстрочным разложением на 625 строк. Эта система принята для первого поколения цифровых телевизоров для НТВ со спутников, работаю­щих в диапазоне 11/12 ГГц, и кабельной сети распределения.

Однако ряд особенностей основного профиля и основного уровня стан­дарта MPEG-2, например, низкое вертикальное разрешение в цветоразностных каналах, ограничивают его применение в условиях видеопроизводства. Для дос­тижения высоких качественных показателей в случае многократного кодирова­ния/декодирования важно кодировать видеосигналы стандарта 4:2:2. Исполь­зование видеосигналов, кодированных в стандарте 4:2:0, совместно с основ­ным профилем и основным уровнем MP@ML означает, что вертикальное раз­решение в цветоразностных каналах уменьшается вдвое. Взаимное преобразо­вание видеосигналов стандартов 4:2:2 и 4:2:0, необходимое для обеспечения совместимости в ТВ тракте в соответствии с Рекомендацией МСЭ-Р ВТ.601-5, требует установки в каждой точке преобразования фильтров низких частот. Хо­рошо известно, что каскадное включение таких фильтров быстро приведет к «смягчению», т.е. к размытию цветовых границ. Для сохранения цветового верти­кального разрешения лучше осуществлять компрессию видеоданных, кодирован­ных по стандарту 4:2:2. Поэтому в рамках группы MPEG-2 был разработан до­полнительный стандарт 422 Profile @ Main Level (422 P@ML).

Стандарт 422 P@ML является подмножеством основного профиля и ос­новного уровня MP@ML в том смысле, что все значения параметров первого либо равны, либо превышают соответствующие значения второго. Принцип об­ратной совместимости, заложенный в MPEG-2, гарантирует, что декодеры 422 @ML способны декодировать цифровые потоки MP@ML.

Основные возможности стандарта 422 P@ML, превосходящие соответст­вующие свойства основного профиля и основного уровня MP@ML, заключаются в следующем.

■ Допускается кодирование сигнала по стандарту 4:2:2, в то время как MP@ML ограничен кодированием сигналов способом 4:2:0.

■ Цифровой поток кодированных видеоданных может принимать любое значение до 50 Мбит/с, а в MP@ML - только 15 Мбит/с.

■ Вертикальное  разрешение ограничено значением 512 строк в случае 525-строчных систем и 608 строк в случае 625-строчных систем, а в MP@ML – значениями 480 и 576 строк, соответственно.

■ В 625-строчных системах кроме 576 активных строк стандарт 422 Р@ML обеспечивает возможность кодирования еще 32 строк в кадре как составной части видеосигнала. Это позволяет пропускать напрямую через систему цифрового сжатия важные строки полевого интервала гашения. Поэтому стандарт 422 P@ML гарантирует пропускание такой информации как полевой временной код и сигналы испытательных строк, не требуя отдельной обработки этих строк.

После того как была сформулирована профессиональная версия MPEG-2 422 P@ML, используемая для студийного производства, он получил статус полноценного международного стандарта, который иногда называют 422 Studio Profile/ML. В результате появилась реальная возможность применения стандарта сжатия MPEG-2 на всех участках технологической цепочки создания ТВ программ: от съемки до телезрителя, включая доставку новостийных сюжетов на телецентр, студийную компоновку программ, их распространение и переда­чу в эфир.

Стандарт предоставляет возможности эффективной работы во всех этих звеньях. Профили MPEG-2 определяют набор способов и технических приемов по сжатию видеоданных, а уровни - такие параметры, как размер изображения или скорость цифрового потока при выбранном способе кодирования. Профиль 4:2:2 характеризуется высокой скоростью цифрового потока и относительно короткими группами изображений, что позволяет монтировать ТВ программу с достаточно высоким качеством.

В настоящее время активно разрабатывается стандарт MPEG-2 4:2:2 P@HL (профиль 4:2:2 на высоком уровне), нацеленный на использование в системах ТВЧ.

 

 

10.4. Стандарт кодирования видеоинформации MPEG-4

 

Новым проектом группы MPEG является стандарт MPEG-4. Работы по этому проекту были начаты в июле 1993г. Рабочий проект был закончен в но­ябре 1996г. и согласован на уровне Комитета Международной организации по стандартизации в ноябре 1997г. Большинство документов, входящих в стандарт MPEG-4, были приняты в конце 1998 - начале 1999 годов. В 1999 г. появилась вторая версия MPEG-4.

Стандарт MPEG-4 охватывает следующие области:

■    цифровое телевидение и видеосвязь;

■    интерактивную графику, синтез изображений;

■    интерактивные мультимедийные приложения, в том числе передаваемые через Интернет.

Стандарт MPEG-4 позволяет передавать видеоинформацию с очень большими коэффициентами сжатия по узкополосным каналам связи, что необ­ходимо как в системах видеосвязи при использовании обычных телефонных се­тей и относительно низкоскоростных цифровых каналов (64 кбит/с), так и для передачи движущихся изображений и звукового сопровождения через Интернет. Кроме того, новый стандарт обеспечивает интерактивность, то есть возможность для пользователя управлять процессом передачи ему информации путем запросов, выбора вариантов и других действий. Таким образом, стандарт MPEG-4 является важным шагом на пути к интерактивному телевидению будущего.

 

10.4.1. Объекты и сцены

 

Важнейшей особенностью MPEG-4 является объектно-ориентированный подход, сущность которого заключается в том, что передаваемое изображение со звуковым сопровождением представляется как совокупность видео- и аудио- объектов.

Видеобъектами могут быть изображения людей и предметов, перемещающихся перед неподвижным фоном, и сам неподвижный фон. Обычное те­левизионное изображение может быть единым видеообъектом.

Аудиообъектами могут быть голоса людей, музыка, другие звуки. Свя­занные видео- и аудиообъекты, например, изображение человека и его голос, образуют аудио-визуальный объект. Видео- и аудиообъекты составляют сцену. MPEG-4 содержит специальный язык для описания сцен — BIFS (Binary Format for Scenes - двоичный формат для сцен).

Описание сцены имеет иерархическую структуру. На рис. 10.6 приведен пример структуры описания сцены, в которой Шерлок Холмс и доктор Ватсон беседуют в комнате на Бейкер-стрит. Верхним уровнем структуры является сцена в целом. Она содержит неподвижный фон, образованный изображениями стен, мебели и т.п. В сцене присутствуют два персонажа, каждый из которых является аудиовизуальным объектом, включающим видеообъект - движущееся изображение персонажа, и аудиообъект — голос этого персонажа. Кроме того, в сцене присутствует камин, который также является аудиовизуальным объек­том, включающим видеообъект - изображение непрерывно движущегося огня, и аудиообъект - звуки, исходящие от камина.

 

 

Описание каждой сцены включает данные о координатах объектов в пространстве и об их привязке ко времени. Видеообъекты могут размещаться в разных плоскостях плокостях видеообъектов, так что видеообъекты, находящиеся в бо­лее близких к зрителю плоскостях сцены перекрывают при движении видео. объекты, находящиеся в более дальних плоскостях.

Сцена, представляемая пользователю, может содержать все объекты, ин­формация о которых поступает в принимаемом потоке данных, или только часть этих объектов. Состав сцены может определяться поставщиком мультимедийной продукции, например, в зависимости от суммы денег, заплаченных пользователем. В интерактивном режиме пользователь может влиять на разви­тие сцены, подавая соответствующие команды. MPEG-4 позволяет также пере-давать пользователю дополнительную информацию об объекте, которая может отображаться, например, в виде окна с текстом, появляющегося, когда пользо­ватель выбрал с помощью мышки какой-либо объект в сцене.

Ясно, что для реализации интерактивных возможностей MPEG-4 необхо­дим не обычный телевизор, а компьютер, подключенный к Интернет.

 

10.4.2. Кодирование видеообъектов

 

В отличие от MPEG-1 и MPEG-2, в которых применяется фиксирован­ный алгоритм кодировании, в MPEG-4 используется целый набор методов ко­дирования, включающий как алгоритмы, сходные с применяемыми в MPEG-b MPEG-2, так и принципиально новые методы кодирования, основанные на по­нятии видеообъекта. Выбор того или иного метода кодирования в конкретном случае определяется характером изображения и требуемым коэффициентом сжатия информации. MPEG-4 позволяет эффективно сжимать как натуральные, так и синтетические изображения и объединять их при воспроизведении.

Обобщенная структурная схема видеокодера MPEG-4 для натуральных изображений приведена на рис. 10.7. На схеме обозначены ДКП — блок прямо­го дискретного косинусного преобразования; ДКП-1 – блок обратного дискрет­ного косинусного преобразования; Кв — квантователь; Кв-1 — деквантователь; ЗУ – запоминающее устройство; Пред.1, Пред.2 - блоки, выполняющие формиро­вание предсказанных изображений в разных режимах кодирования; ОД — блок оценки движения и формирования векторов движения; М — мультиплексор; БЗУ — буферное запоминающее устройство; УКС — блок управления коэффици­ентом сжатия изображения. Кроме того, на схеме показаны кодеры формы 1 текстур, сумматор, вычитающее устройство и переключатель «Выбор», с по­мощью которого осуществляется подключение одного из блоков предсказан* в зависимости от используемого метода кодирования. Данная схема являете» упрощенной и на ней не показаны многие блоки и связи.

На вход кодера поступают исходные видеоданные, например, цифровая телевизионный сигнал. На выходе кодера формируется элементарный поток видеоданных.

Кратко рассмотрим основные методы кодирования натуральных изображений.

1. Видеообъекты, представляющие собой прямоугольные изображения (например, обычные ТВ – кадры), кодируются методом, аналогичным применяемому в MPEG-1 и MPEG-2, то есть с использованием гибридного кодирования.

Метод включает предсказание с оценкой и компенсацией движения для макроблоков 16x16 пикселей и ДКП ошибки предсказания в блоках 8x8 пикселей. Для определенности будем считать, что предсказание в этом случае выполняется в блоке Пред.1- Связь выхода блока ОД с мультиплексором и средства управления коэффициентом сжатия на рис. 10.7 не показаны.

Этот вид кодирования имеет два уровня по скорости передачи двоичнх символов в выходном потоке данных.

Уровень очень низкой скорости передачи VLBV (Very Low Bitrate Video) предназначен для передачи изображений с низким пространственным разреше­нием (форматы QCIF и SQCIF) и пониженной частотой кадров (10... 15 Гц) по узкополосным каналам связи со скоростями передачи двоичных символов 5...64 кбит/с. Этот уровень может использоваться в видеотелефонной связи с невысоким качеством изображения.

Уровень высокой скорости передачи (High bitrate) предназначен для передачи изображений с более высоким пространственным разрешением, вплоть до формата по Рекомендации 601, по различным каналам связи со скоростями передачи двоичных символов 64 кбит/с...10Мбит/с. Этот уровень может использоваться в видеосвязи с высоким качеством изображения и для передачи телевизионных программ.

2. Кодирование, основанное на содержании (content-based coding), позволяет получить существенно большее сжатие изображений за счет учета свойств в присутствующих в сцене.

Одной из возможностей, создаваемых этими методами, является кодирование видеообъектов сложной формы. Например, в качестве видеообъекта может быть взята область изображения, отличающаяся от окружения яркостью или цветом. Эта область может перемещаться и деформироваться. При формировании предсказанного изображения с компенсацией движения смещаются не, прямоугольные блоки, а выделенные области, которые к тому же могут изменять свою форму. При этом ошибка предсказания оказывается значительно меньше, и объем информации, содержащейся в разности предсказанного и настоящего изображений очередного кадра, существенно уменьшается. В кодере показанном на рис. 10.7, такой вариант предсказания выполняется в блоке Пред.2.

В то же время, вместо векторов движения, показывающих перемещение прямоугольного макроблока как целого, необходимо передать параметры, ха­рактеризующие изменения координат и формы объекта. Эти параметры опре-деляются и кодируются в кодере формы, после чего они включаются через мультиплексор М в выходной поток данных.

Данные о форме видеообъекта занимают значительно больше двоичных символов, чем простой вектор движения. Например, если граница области, вы­деленной как видеообъект, аппроксимируется многоугольником, то для описа­ния смещения и деформации этой области необходимо передать изменения ко­ординат всех углов объема передаваемой информации по сравнению с MPEG-1, MPEG-2 оказывается существенным.

3. Для сжатия изображений фона и текстур протяженных объектов ис­пользуется метод кодирования, основанный на вэйвлет-преобразовании. Этот метод обеспечивает высокие степени сжатия и многоступенчатую масштаби­руемость по пространственному разрешению.

Перейдем к методам кодирования синтетических видеообъектов, создаваемых с использованием средств машинной графики. Такие видеообъекты могут кодироваться методами для натуральных изображений. Однако значительно эффективнее использовать их параметрическое описание.

В стандарте MPEG-4 используется модель человеческого лица, построенная на основе сетки из треугольных ячеек, которые заполняются текстурой. Имеется также трехмерная модель человеческого тела в виде трехмерной сен* Двумерные изображения человека получаются путем построения проекции трехмерной модели на нужную плоскость.

Форма, текстура и выражения лица в статике описываются параметрам FDP (Facial Definition P arameters), а в динамике - параметрами FAP (Facial Animation Parameters). Для тела в статике задаются параметры BDP (Body Definition Parameters), а в динамике - BAP(Body Animation Parameters). Статически параметры FDP и BDP передаются в начале сеанса связи. Для воспроизведем! мимики лица и движений тела собеседника в процессе разговора передаются динамические параметры FAP и ВАР.

Статические изображения лица и тела человека могут использоваться системах видеосвязи вместо настоящих изображений собеседника. Передача параметров модели требует существенно меньшей скорости передачи двоичных символов, чем передача реального изображения.

В некоторых случаях можно в приемной части системы получить информацию об изменениях изображения объекта на основе другой информации. Такой случай характерен для передачи изображения лица говорящего человека. Движения  рта и мимика во многом определяются произносимыми словами и могут синтезированы на основе принятого звукового сигнала, содержащего голос собеседника. При этом требуемая для осуществления видеосвязи скорость передачи двоичных символов еще уменьшается.

Помимо лица и тела могут синтезироваться произвольные двумерные изображения также в виде сеток с треугольными ячейками, заполняемыми текстурой.

Стандартом MPEG-4 обеспечивается многоуровневая масштабируемость пространственному разрешению, по времени и по качеству изображения. В стандарте предусмотрены средства, обеспечивающие работоспособность системы передачи видеоинформации при наличии помех и ошибок в канале связи.

 

10.4.3. Кодирование звуковых объектов

 

Кодирование звуковой информации в MPEG-4 также может осуществ­ляться разными способами, дающими различные объемы передаваемых данных и различное качество звука на выходе системы. Предусмотрено три уровня ко­дирования.

1.  Кодирование музыки с обеспечением высокого и среднего качества вы­полняется тем же методом, что и в стандарте MPEG-2, при этом обеспечивается передача восьми каналов звука при скорости передачи двоичных символов 16...64 кбит/с на канал.

2.  Для передачи речи с высоким и средним качеством используется метод кодирования CELP (кодирование с линейным предсказанием), который обеспе­чивает скорости передачи 6. ..24 кбит/с при частотах дискретизации 8 и 16 кГц.

3.  Параметрическое кодирование речи, которое обеспечивает сжатие при сохранении разборчивости до скоростей 4...24 кбит/с при частоте дискретиза­ции 8 кГц.

Самые низкие скорости передачи 0,2... 1,2 кбит/с достигаются для искус­ственно синтезированной речи и синтезированной в соответствии со стандар­том MTDI-музыки.

Кодирование аудиообъектов также обладает свойством масштабируемо­сти. Например, на основном уровне потока данных уровень обеспечивает каче­ство звука, соответствующее кодированию по MPEG-2. Более сложный и дорогой декодер может декодировать основной и дополнительные слои потока данных и позволяет получать более высокое качество воспроизводимого звука, чем более простой и дешевый декодер, воспринимающий только основной уровень потока данных.

 

10.4.4. Передача данных

 

Структурная схема формирования передаваемых потоков данных в стандарте MPEG-4 приведена на рис. 10.8. Элементарные потоки ES (Elementary Streams) с видео- и аудиообъектов поступают на уровень синхронизации (SLSync Layer) и в блоках SL преобразуются в пакетированные SL-потоки, в которые введены метки времени и данные о тактовых частотах. Это позволяет привязать к единой шкале времени различные видео- и аудиообъекты. Далее пакетизированные  SL-потоки поступают на уровень DMIF (DMIF Layer).

DMEF (Delivery Multimedia Integration Framework — интегрированная сис­тема доставки мультимедиа) - это протокол, обеспечивающий управление по­токами данных для мультимедиа. Как всякий протокол передачи данных (на­пример, протоколы, используемые в Интернете), DMIF обеспечивает посылку запросов от пользователя к источнику информации и пересылку запрошенных данных пользователю. Кроме того, DMIF дает пользователю средства управле­ния в виде интерфейса пользователя DMIF-Application Interface (DAI), позволяя подавать команды для выбора информации (например, фильма) и формируя со­общения о получении доступа к этой информации или о возникших при этом трудностях.

DMIF охватывает три основные сферы применения MPEG-4: передачу по интерактивным сетям (Интернет), передачу по обычным вещательным каналам и запись видеопрограмм на компакт-диски.

На уровне DMLF возможно объединение в блоках FlexMux  пакетизированных SL-потоков во FlexMux потоки (FlexMux Streams). Эта операция является необязательной, так как под управлением DMIF могут подаваться и пакетизированные  SL-потоки.

Затем данные переходят на уровень TransMux (TransMux Layer),  где TransMux -потоки или SL-потоки объединяются в транспортный поток. Общее название транспортного потока TransMux Stream. В стандарте MPEG-4 этот поток не определен. В качестве его может использоваться, например, транспортный поток (TS) MPEG-2. еще один вариант TransMux-потока - запись в файл.

До сих пор речь шла о нисходящем потоке, который несет данные от источников видеопрограмм к зрителям. Для реализации интерактивного телевидения и различных видов мультимедийного сервиса необходима передача информации от зрителя на головную станцию системы. Для этого передается восходящий поток данных, скорость передачи двоичных символов в котором обычно значительно меньше, чем в нисходящем потоке.

 

10.4.5. Декодирование и воспроизведение

 

Структурная схема декодирующей части системы по стандарту MPEG-4 приведена на рис. 10.9. На схеме показаны демультиплексор ДМп, буферные запоминающие устройства БЗУ 1, БЗУ 2, декодеры ДК и блок объединения БО.

На вход поступает транспортный поток FlexMux Streams, из которого в демультиплексоре выделяются элементарные потоки, данные каждого из кото­рых записываются в соответствующее БЗУ 1. Назначение БЗУ1 - накапливать неравномерно поступающие по каналу связи данные и по мере надобности пе­редавать их на декодер.

Далее выполняется декодирование элементарных потоков. Получаемые при этом данные видео- и аудиообъектов записываются в БЗУ 2. Элементарные потоки, относящиеся к одному объекту, могут декодироваться совместно.

При демультиплексировании из общего потока данных выделяются также описанные сцены и метки времени, поступающие на блок объединения. Данные отдельных объектов считываются из соответствующих БЗУ2 и из них в блоке объединения формируются цифровые сигналы изображения и звука, поступающие далее на воспроизводящие устройства (на рис. 10.9 не показаны). При этом обеспечивается синхронизация всех видео- и аудиообъектов.

 

10.5.Стандарт кодирования видеоинформации MPEG-7

 

Работы над MPEG-7 начались в октябре 1996 года, а форму стандарта он обрел в сентябре 2001 года. Его официальное название: Multimedia Content Description Interface - Интерфейс описания мультимедийных данных.

Принципиальным отличием MPEG-7 является то, что он разрабатывался совсем не для установления каких-либо правил на передачу аудио- и видеоданных или типизацию и характеристику данных какого-то конкретно рода. Стан­дарт предусмотрен как описательный, предназначенный для регламентации ха­рактеристик данных мультимедиа любого типа, вплоть до аналоговых, и запи­санных в разных форматах (например, с разным пространственным и времен­ным разрешением кадра). Среда хранения и передачи описания тоже может быть произвольной, при этом описание может храниться и передаваться от­дельно от самого материала. Стандарт также включает механизмы преобразо­вания описаний из одной формы представления в другую. Например, речь мо­жет преобразовываться в текст, изображение в речь, живое видео в анимацию и т. д. Это обеспечит универсальность создаваемых описаний, то есть позволит разным базам описаний взаимодействовать с разными поисковыми машинами, а также передавать описательную информацию по любым каналам связи. Дру­гими словами MPEG-7 можно охарактеризовать как стандарт, предназначенный для обработки, фильтрации и управления мультимедийной информации.

Все области применения, базирующиеся на мультимедиа, выиграют от использования MPEG-7. Ниже предлагается список возможных приложений MPEG-7, которые любой из читателей без труда сможет дополнить:

■   архитектура, недвижимость и интерьерный дизайн (например, поиск идей);

■   выбор широковещательного мультимедийного канала (радио, телевиде­ние);

■   услуги в сфере культуры (исторические музеи, картинные галереи и т.д.);

■    цифровые библиотеки (например, каталоги изображений, музыкальные словари, биомедицинские каталоги изображений, фильмы, видео и радио архи­вы);

■    коммерция (например, целевая реклама, каталоги реального времени, ка­талоги электронных магазинов);

■    образование (например, депозитарии мультимедийных курсов, мультимедийный поиск дополнительных материалов);

■   домашние развлечения (например, системы управления личной мультимедийной коллекцией, включая манипуляцию содержимым, например, редактирование домашнего видео, поиск игр, караоке);

■   исследовательские услуги (например, распознавание человеческих особенностей, экспертизы);

■   журналистика (например, поиск речей определенного политика, используя его имя, его голос или его лицо);

■   мультимедийные службы каталогов (например, Желтые страницы, туристская информация, географические информационные системы);

■   мультимедийное редактирование (например, персональная электронная служба новостей, персональная мультимедийная среда для творческой деятель­ности);

■  удаленное опознавание (например, картография, экология, управление природными ресурсами);

■   надзор (например, управление движением, транспортом, неразрушающий контроль в агрессивной среде).

В принципе, любой тип аудио-визуального материала может быть полу­чен с помощью любой разновидности материала в запросе. Это означает, на­пример, что видеоматериал может быть запрошен с помощью видео, музыки, голоса и т.д.

Ниже приведены примеры запросов:

■   проиграйте несколько нот на клавиатуре и получите список музыкальных отрывков, сходных с проигранной мелодией, или изображений, соответствую­щих некоторым образом нотам, например, в эмоциональном плане;

■   нарисуйте несколько линий на экране и найдете набор изображений, со­держащих похожие графические образы, логотипы, идеограммы;

■   определите объекты, включая цветовые пятна или текстуры, и получите образцы, среди которых вы выберете интересующие вас объекты;

■   опишите действия и получите список сценариев, содержащих эти дейст­вия;

■   используя фрагмент голоса Паваротти, получите список его записей, ви­деоклипов, где Паваротти поет, и имеющийся графический материал, имеющий отношение к этому певцу.

Для реализации указанных свойств MPEG-7 содержит наборы дискриптеров для различных типов мультимедиа информации, способы их определения и взаимосвязи между ними. Описание содержимого осуществляется с использо­ванием нескольких уровней. Так высший уровень используется для описания файла, в нем указывается название, автор, дата создания и т. п. Уровнем ниже – описываются структурные особенности аудиовизуального содержания, такие как цвет, текстура, тон, темп и т. п.

Актуальность создания подобных поисковых систем, например для сети Интернет или интерактивных систем телевизионного вещания не вызывает сомнений. А в качестве возможных областей их применения можно указать медицину и дистанционные исследования окружающей среды, архивирование и редактирование аудио- и видеоматериалов, обучение, видеонаблюдение и многое, многое другое.

Стандарт MPEG-7 достаточно сложен. Заметим, что только его официальное описание занимает более 60 страниц. Поэтому, учитывая ограниченный объем монографии, любознательным читателям мы рекомендуем посетить сайт http/amv.yakutia.ru/library/books/semenov/2/25/mpeg-4R.htm, на котором находится великолепно выполненный Ю.А. Семеновым перевод стандарта.

 

 

ГЛАВА 11. ВИДОКОНФЕРЕНЦИИ [56-60]

 

11.1. Небольшой исторический экскурс

 

В своей базовой форме видеоконференции представляют двунаправленный обмен синхронизированными изображениями и звуком между двумя и более географически разнесенными местоположениями, обеспечивая участникам виртуальное присутствие в одном месте. Возможности современных систем видеоконференций намного шире.

Может быть, в это трудно поверить, но первая публичная видеоконференция состоялась в апреле 1930 года между штаб-квартирой AT&T и Вell Laboratory в Нью-Йорке. Голосовыми терминалами служили микрофоны и громкоговорители, а изображения лиц участников, освещаемых мощными лам­пами синего света, захватывались системой фотоэлементов. Как писала в то время New York Daily Mirror, речь была разборчивой, а принятые изображения «не оскорбляли» их оригиналов. Но прошло более 30 лет, пока первые продукты для организации видеоконференций появились на рынке. В 1964 г. та же AT&T продемонстрировала первый Picturephone на Всемирной ярмарке в Нью-Йорке. Устройство требовало для своей работы процессор с частотой 1 МГц (фантастической по тем временам) и впервые предоставляло возможность раз­деления данных. В 1971 г. состоялась первая трансатлантическая видеоконференция между двумя системами от Ericsson (продукт назывался LME). И только 20 лет спустя видеоконференции стали доступны владельцам ПК. Первопроходцами в этом секторе были компании Intel, PictureTel и VTEL. Затем, по мере j развития рынка, начали появляться и другие игроки: Zydacron, VCON, Polycom, j Рынок продолжал постепенно расти и изменяться, но еще не было ясно, какой стандарт будет доминирующим для видеоконференций по IP-сетям. Устоял стандарт Н.323 и, похоже, он продержится, по крайней мере, до тех пор, пока радикально не обновятся технологии.

 

11.2.Типы видеоконференций

 

С технической точки зрения видеоконференции проводятся с помощью видеокамер и микрофонов (локальные конечные точки), которые захватывают изображение и звук. Затем эти данные преобразуются в цифровую форму, сжи­маются, и сигнал посылается через глобальную и/или локальную сеть. Прини­мающая аппаратура выполняет обратные преобразования и отображает ориги­нальный сигнал на видеотерминалах и звуковоспроизводящих устройствах (удаленные конечные точки).

Взаимодействие между видеотерминалами можно разбить на три катего­рии:

■   точка-точка и единый протокол обмена данными (один терминал вызывает другой в пределах одной сети, используя один протокол);

■   точка – многоточка и единый протокол обмена данными (группа терминалов взаимодействует между собой по одному протоколу);              

■ точка – многоточка и множество протоколов (группа терминалов взаимодействует между собой по разным протоколам).

В свою очередь, видеокоммуникационные терминалы классифицируются полагаемому количеству присутствующих в одном месте участников видеоконференции:

■  персональные или настольные системы, рассчитанные на двух участников;

■  системы для небольших помещений - от одного до трех человек;

■  системы для средних помещений - до 10 человек;

■   системы для аудиторий – от 30 участников и больше.

 

11.3. Протоколы семейства Н.32х

 

В 1990 году был одобрен первый международный стандарт в области видеоконференцсвязи спецификация Н.320 для поддержки видеоконференций по ISDN. Затем ITU (International Telecommunications Union - Международный Союз Электросвязи) одобрил еще целую серию рекомендаций, относящихся к видеоконференцсвязи. Эта серия рекомендаций, часто называемая Н.32х, по­мимо Н.320, включает в себя стандарты Н.321-Н.324, которые предназначены для различных типов сетей.

Во второй половине 90-х годов интенсивное развитие получили IP-сети и Интернет. Они превратились в экономичную среду передачи данных и стали практически повсеместными. Однако, в отличие от ISDN, IP-сети плохо при­способлены для передачи аудио- и видеопотоков. Стремление использовать сложившуюся структуру IP-сетей привело к появлению в 1996 году стандарта Н.323 (Visual Telephone Systems and Terminal Equipment for Local Area Networks which Provide a Non-Guaranteed Quality of Service, Видеотелефоны и терминаль­ное оборудование для локальных сетей с негарантированным качеством обслу­живания). В 1998 году была одобрена вторая версия этого стандарта Н.323 v.2 (Packet-based multimedia communication systems, Мультимедийные системы свя­зи для сетей с коммутаций пакетов). В сентябре 1999 года была одобрена третья версия рекомендаций, а 17 ноября 2001 года была одобрена четвертая версия стандарта Н.323 .

Сейчас Н.323   один из важнейших стандартов из этой серии. Н.323 - это рекомендации ITU-T для мультимедийных приложений в вычислительных се­тях, не обеспечивающих гарантированное качество обслуживания (QoS). Такие сети включают в себя сети пакетной коммутации IP и IPX на базе Ethernet, Fast Ethernet и Token Ring.

Рекомендации Н.323 предусматривают:

■ управление полосой пропускания; 

■ возможность взаимодействия сетей;

■ платформенную независимость;

■ поддержку многоточечных конференций; поддержку многоадресной передачи;

■ стандарты для кодеков;

■ поддержку групповой адресации.

Управление полосой пропускания. Передача аудио- и видеоинформа­ции весьма интенсивно нагружает каналы связи, и, если не следить за ростом этой нагрузки, работоспособность критически важных сетевых сервисов может быть нарушена. Поэтому рекомендации Н.323 предусматривают управление полосой пропускания. Можно ограничить как число одновременных соедине­ний, так и суммарную полосу пропускания для всех приложений Н.323. Эти ог­раничения помогают сохранить необходимые ресурсы для работы других сете­вых приложений. Каждый терминал Н.323 может управлять своей полосой пропускания в конкретной сессии конференции.

Межсетевые конференции. Рекомендации Н.323 предлагают средство соединения участников видеоконференции в разнородных сетях (например, IP и ISDN, IP и PSTN).

Платформенная независимость. Н.323 не привязан ни к каким техноло­гическим решениям, связанным с оборудованием или программным обеспече­нием. Взаимодействующие между собой приложения могут создаваться на ос­нове разных платформ, с разными операционными системами.

Поддержка многоточечных конференций. Рекомендации Н.323 позво­ляют организовывать конференцию с тремя или более участниками. Многото­чечные конференции могут проводиться как с использованием центрального MCU (устройства многоточечной конференции), так и без него.

Поддержка многоадресной передачи. Н.323 поддерживает многоадрес­ную передачу в многоточечной конференции, если сеть поддерживает протокол управления групповой адресацией (такой, как IGMP). При многоадресной пере­даче один пакет информации отравляется всем необходимым адресатам без лишнего дублирования. Многоадресная передача использует полосу пропуска­ния гораздо более эффективно, поскольку всем адресатам - участникам списка рассылки отправляется ровно один поток.

Стандарты для кодеков. Н.323 устанавливает стандарты для кодирова­ния и декодирования аудио- и видеопотоков с целью обеспечения совместимо­сти оборудования разных производителей. Вместе с тем стандарт достаточно гибок. Существуют требования, выполнение которых обязательно, и существу­ют опциональные возможности, в случае использования которых также необ­ходимо строго следовать стандарту. Помимо этого, производитель может включать в мультимедийные продукты и приложения дополнительные возмож­ности, если они не противоречат обязательным и опциональным требованиям стандарта.

Совместимость. Участники конференции хотят общаться друг с другом, не заботясь о вопросах совместимости между собой. Рекомендации Н.323 под­держивают выяснение общих возможностей оборудования конечных пользова­телей и устанавливают наилучшие из общих для участников конференции про­токолов кодирования, вызова и управления.

Гибкость. Н.323 конференция может включать участников, конечное оборудование которых обладает различными возможностями. Например, один из участников может использовать терминал лишь только с аудиовозможностям, в то время как остальные участники конференции могут обладать также возможностями передачи/приема видео и данных.

 

Тенденции развития рекомендаций Н.323

 

Н.323 v.2. Во второй версии Н.323 v.2 рекомендаций были устранены не­достатки предыдущей версии. Были усовершенствованы существующие прото­колы: Q.931, Н.245 и Н.225, а также введен ряд новых. Основные преимущества новой версии стандарта заключаются в добавлении функций безопасности, ус­тановки быстрого вызова, некоторых дополнительных сервисов и интеграции протоколов Н.323 и Т.120.

Функции безопасности (Н.235) включают в себя обеспечение аутентификации (механизм, который подтверждает то, что участники конференции именно те, за которых они себя выдают), целостности (механизм, подтверждающий то, что переданные пакеты не были искажены), криптографическую защиту передаваемой информации от несанкционированного доступа.

■ Функция Fast Call Setup решает имевшуюся в первой версии проблему когда после прохождения звонка одного абонента другому могла быть задержка в прохождении аудио и видеопотоков.

■ Протокол Т. 120 был интегрирован и в первую версию рекомендаций Н.323, однако сценарии установки звонка были довольно сложны. Во второй версии рекомендаций Н.323 эта проблема решается следующим образом: стан­дарт требует, чтобы оборудование конечных пользователей, поддерживающее одновременно и Т. 120, и Н.323, управлялось звонками по Н.323. Более того, со­гласно второй версии рекомендаций Т. 120 является опциональной частью кон­ференции Н.323 и возможности действий по Т.120 отдаются на усмотрение ка­ждого устройства в конференции Н.323 по отдельности.

 

Н.323 v.3. В третьей версии Н.323 v.3 рекомендаций было введено не­сколько новых возможностей. Прежде всего, они касаются дополнений к ос­новному документу и рекомендациям Н.225.0, внося усовершенствования в ар­хитектуру стандарта. Среди них можно выделить:

■   Более эффективное использование ранее установленных сигнальных со­единений, в частности, между мультимедиа шлюзом и контроллером зоны.

■   Возможность переадресации вызова при установленном соединении.

■   Повышено удобство получения информации об абонентах (Caller ID).    

■   Сигнальная информация включает в себя информацию о языке абонента, что расширяет возможности обработки вызова.

■   Предложен механизм, облегчающий добавление новых кодеков.

■   Механизм сигнализации может теперь использовать UDP транспорт, вме­сто TCP, что существенно для конференций с большим числом участников.

■  Введено понятие упрощенного терминала (Simple Endpoint Type - SET). Такие терминалы могут поддерживать только незначительную часть рекомен­даций Н. 323, тем не менее, обеспечивая проведение звуковой связи с другими Н.323 терминалами.

■   Введена возможность SNMP - управления оборудованием видеоконференцсвязи.

■   Информационная база управления (MIB) описывается документом Н.341.

 

Н.323 v.4. Четвертая версия рекомендаций Н.323 v.4 принята 17 ноября 2000 года. Туда внесено много изменений с целью повышения надежности, мо­бильности и гибкости систем видеоконференций. Новые возможности, касаю­щиеся мультимедиа шлюзов и устройств многоточечной конференции, направ­лены на повышение качества организации и проведения конференции с боль­шим числом участников. Перечислим некоторые из нововведений.

■   Новые механизмы повышения устойчивости работы Н.323 конференций-

■   Декомпозиция структуры мультимедиа шлюза с целью отделения модул3 управления от исполнительных устройств.

■   Возможность мультиплексирования аудио и видео в одном RTP-потоке.

■   Модификация процесса регистрации на контроллере зоны с целью облег­чить регистрацию большого числа участников конференции.

■ Совершенствование механизмов распределения нагрузки и повышения устойчивости работы контроллеров зоны.

■   Для терминалов Н.323 предусматриваются способы выделения реально необходимой полосы пропускания, как для обычной, так и для групповой адре­сации.

 

11.4. Компоненты Н.323

 

Стандарт Н.323 определяет четыре вида компонентов, обеспечивающих коммуникации «точка-точка» и «точка – многоточка»:

■   терминалы;

■   шлюзы;

■  контроллеры зоны (gatekeepers, привратники, конференц-менеджеры);

■   устройства управления многоточечной связью (Multipoint Control Unit -

MCU).

Терминалами для мультимедийных коммуникаций в режиме реального времени могут служить персональные компьютеры либо автономные устройст­ва, поддерживающие протокол Н.323, на которых могут выполняться мульти­медийные приложения. Поскольку базовым сервисом Н.323 является передача голоса, то в своей минимальной конфигурации такое устройство должно быть просто IP-телефоном. Так как основная цель протокола Н.323 — это обеспечение взаимодействия с другими продуктами для видеоконференций, то Н.323-терминалы совместимы с терминалами стандарта Н.324 и беспроводными сетя­ми, оконечными устройствами Н.310/ Н.321 для сетей B-ISDN, H.320 для ISDN и Н.322 для LAN с поддержкой QoS.

Несмотря на то, что стандарт считает функции видео необязательными, все терминалы с видеовозможностями должны поддерживать кодек Н.261, оп­ционально возможна поддержка Н.263.

Н.263 является развитием кодека Н.261, видеокартинка, полученная с по­мощью кодека Н.263 обладает лучшим качеством, поскольку используется полупиксельная технология предсказания движения. Кроме того, используемое кодирование по Хаффману оптимизировано для работы с более низкими скоро­стями передачи.

Определено пять стандартных форматов кадров (табл.11.2).

Шлюзы предназначены для соединения сетей с разными технологиями. Например, шлюз Н.323 осуществляет связь между терминалом в IP-сети и тер терминалом, подключенным к сети с коммутацией каналов. Такая связь выполняется с помощью протоколов трансляции для установки и разрыва соединения преобразования медиаформатов различных сетей, соединенных шлюзом. Шлюз, естественно, не является необходимым при коммуникациях между двумя Н.323-сетями.

Контроллер зоны служит как бы мозгом Н.323-сети. Основными функ­циями контроллера зоны являются:

■   управление и адресация вызовов;

■    обеспечение основными типами обслуживания, такими как телефонный справочник и сервисом, характерным для УАТС (передача и перенаправление вызовов и т.д.);

■   управление использованием полосы пропускания приложениями Н.323 таким образом, чтобы обеспечить качество обслуживания;

■   управление общим использованием сетевых ресурсов;

■    системное администрирование и обеспечение безопасности. 

Несмотря на то, что Рекомендации Н.323 определяют контроллер зоны как необязательный компонент, без него невозможно воспользоваться мощным и разнообразным спектром услуг, предусмотренных создателями стандарта Н.323 для приложений IP-телефонии и мультимедийных телеконференций.

Контроллер зоны может размещаться в любом месте сети, встраиваться в другое сетевое устройство, например, в шлюз, или работать как автономное приложение на настольном компьютере.

Устройство управления многоточечной конференцией MCU обеспечивает многоточечные видеоконференции. Протокол Н.323 различает многоточечный контроллер (Multipoint Controller — МС) и многоточечный процессор (Multipoint Processor - МР), которые являются компонентами MCU. Многоточечный контроллер управляет настройкой сеанса, выполняя такие функции, как согласование взаимодействия всех терминалов, открытие и закрытие каналов для голосовых и видеопотоков, а также данных. Многоточечный процессор занимается централизованной обработкой мультимедийного трафика. Он смешивает и коммутирует потоки, которыми управляет МС. Протокол Н.323 предусматривает обязательное наличие хотя бы одного МР и опционально - нескольких. МР может объединяться с МС в одном MCU, несколько МР могут быть распределены по сети.

Все терминалы, участвующие в сеансе, устанавливают соединение с MCU. Устройство управляет ресурсами видеоконференции, потоком, определяет, какие аудио- и/или видеокодеки необходимо использовать.

Логически привратники, шлюзы и MCU являются отдельными компонентами, однако могут быть физически реализованы в одном устройстве.

На рис. 11.1 представлена типичная схема коммуникаций при видеоконференцсвязи, а рис. 11.2 иллюстрирует взаимодействие между сетями Н.32х.

1 – Конечный пользователь подсоединяется к видеоконференции посредством Н.323-терминала; 2 - MCU управляет многоточечным сеансом; 3 - При сценарии IP LAN-to-IP LAN MCU передается трафик на маршрутизатор, который через глобальнуюIP -сеть соединяется с другим маршрутизатором; 4 - При соединении с сетью ISDN шлюз/привратник преобразует мультимедиа-данные.

Рис. 11.2. Схема взаимодействия между разными сетями

Стек протоколов Н.323. Приведем краткое описание назначения протоколов, предусматриваемых стандартом Н.323 (рис. 11.3).

Заметим, что, поскольку Н.323 не зависит от типа пакетной сети и протоколов транспортного уровня, они не специфицируются.

Итак, стек протоколов включает спецификации на:

■  аудиокодеки;

■  видеокодеки;

■  Н.225, регистрация, вход и статус (Registration, Admission, StatusRAS);

■  Н.225, сигнализация вызовов;                                             

■  Н.245, управляющая сигнализация;

■  протокол передачи в режиме реального времени (Real-Time Transfer Protocol-RTP);

■  протокол управления в режиме реального времени (Real-Time Соntrol Protocol-RTCP).

Аудиокодек осуществляет кодирование голосовых сигналов, поступающих от микрофона, и направляет их на передающий терминал Н.323. На приемном терминале он декодирует их и направляет на громкоговоритель. Н.323-терминал должен поддерживать хотя бы один аудиокодек (в рекомендации ITU-T указан G.711, 64 кбит/с). Дополнительно рекомендованы кодеки G.722 (64,56 и 48 кбит/с), G.728 (16 кбит/с), G.729 (8 кбит/с).

 

Видеокодек выполняет те же действия, но уже над видеосигналом. Нали­чие видеокодека является опциональным. Однако Н.323-терминалы, обеспечи­вающие видеоконференции, должны поддерживать рекомендованную ITU-T спецификацию Н.261.

 

RAS регламентирует обмен данными между оконечными устройствами (терминалами и шлюзами) и привратниками. Он используется для выполнения таких функций, как регистрация, управление доступом, регулирование полосы пропускания, процедуры разъединения оконечных устройств и привратника. Управление осуществляется с помощью RAS-сообщений. Канал RAS между оконечными устройствами и привратником открывается прежде всех других.

 

Сигнализация вызовов применяется для установления соединения дву­мя оконечными устройствами Н.323. Это достигается посредством обмена со­общениями, предусматриваемыми протоколом Н.225. Канал сигнализаций вы­зовов открывается между двумя терминалами Н.323 или между терминалом и привратником.

 

Управляющая сигнализация обеспечивает сквозной обмен сообщения­ми, которые управляют работой оконечных устройств Н.323. Они несут информацию о возможностях обмена, открытии и закрытии логических каналов для передачи трафика, управлении потоком, общие команды.

 

RTP выполняет сквозную доставку аудио- и видеоуслуг в режиме peaльного времени. Если Н.323 применяется для транспорта данных на основе IP – протокола, то RTP обычно использует UDP. Протокол RTP предусматривает такие функции, как идентификация полезной нагрузки, нумерация последовательности пакетов, установка временных меток и мониторинг. RTP может применяться наряду с другими транспортными протоколами. 

RTCP является аналогом RTP, но с добавлением функций управления. Его основное назначение — обеспечить обратную связь для качественного рас­пределения данных.

Таковы основные особенности протокола Н.323, который поддерживается основными игроками на рынке видеоконференций. Многие интересные и важные аспекты, такие, как необходимая полоса пропускания, проблемы брандмауэров и proxy-серверов и т. п., не были нами рассмотрены. Важно одно – семейство  протоколов Н.ххх обеспечивает взаимодействие между разными сетями и служит фундаментом для производства совместимого оборудования. Поэтому, несмотря на то, что формально стандарт не утвержден, в этом секторе рынка растет как спрос, так и предложение.

 

11.5 Стандарты компрессии/декомпрессии видеоизображения при организации видеоконференций

 

Стандарты MPEG. Эти стандарты были подробно нами описаны в предыдущей главе.

 

Стандарты Cell. Компания Sun Microsystems предложила свой стандарт компрессии видеоизображения – Cell. Существуют два метода компрессии по этому стандарту: CellА и  CellВ. Метод CellА требует большей вычислительной мощности для компрессии/декомпрессии сигнала, чем метод CellВ. Поэтому в системах видеоконференций, требующих работы видео в реальном времени, используется метод CellВ. В этом методе изображение делится на 4x4 группы пикселей, называемых ячейками (cell). В основу алгоритма компрессии положен метод ВТС (Block Truncation Coding). 16 пикселей в каждой ячейке преобразуются в 16-битовую маску цветности и две 8-битовых маски интенсивности поэтому для кодировки 384 битов требуются всего 32 бита. Это означает степень сжатия 12:1. Преимущество метода Cell заключается в том, что в процессе декомпрессии можно использовать графические примитивы Windows – подобных систем. Такие примитивы выполняются аппаратно стандартными графическими акселераторами, что позволяет пользоваться аппаратной декомпрессией, используя стандартное оборудование, уже установленное в компью­тере.

 

Стандарт NV. Подразделение PARC компании Xerox предложило метод компрессии NV (Network Video). Метод используется чаще всего в системах телеконференций, работающих в Internet. На первом шаге алгоритма текущее изображение сравнивается с предыдущим и выделяются области, в которых произошли значимые изменения. Компрессии и последующей пересылке под­вергаются только эти области. В зависимости от того, что является ограничивающим фактором — полоса пропускания канала связи или вычислительная мощность оборудования, для компрессии используются либо преобразование Фурье, либо преобразование Гаара. После квантования преобразованного изо­бражения достигается степень сжатия до 20:1.

 

Стандарт CU-SeeMe. В экспериментальной системе видеоконференций CU-SeeMe, разработанной в Корнуэлльском университете, входное изображе­ние представляется 16 градациями серого цвета с 4 битами на пиксель. Изобра­жение разбивается на блоки пикселей общим количеством 8x8. Кадр сравнива­ется с предыдущим, и пересылаются только блоки, в которых произошли зна­чимые изменения. Компрессия этих блоков происходит по алгоритму сжатия без потерь, разработанному специально для системы CU-SeeMe. С учетом воз­можных потерь данных в канале связи периодически пересылаются и неизме­нившиеся блоки. Степень сжатия изображения составляет 1,7:1. Алгоритм ком­прессии изначально был разработан для аппаратно-программной платформы Macintosh. Он работает с восемью четырехбитными пикселями как 32-битными словами. Для системы CU-SeeMe минимальная пропускная способность канала связи должна быть не ниже 80 кбит/с.

 

Стандарт Indeo. Стандарт разработан фирмой Intel. В основе метода лежит расчет изображения текущего кадра по данным предыдущего. Передача кадра происходит только в том случае, если расчетные значения значимо отличаются от реальных. Компрессия осуществляется по методу 8x8 FST (Fast Slant Transform), в котором используется только алгебраические операции сложения и вычитания. Степень сжатия в методе Indeo составляет 1,7:1.

 

11.6. Обзор программного обеспечения

 

Системы для проведения видеоконференций долгое время имели плохую репутацию. Они были дорогими и сложными в инсталляции, давали зернистое, дергающееся изображение, которое часто разочаровывало новых пользователей Отсутствие же   стандартов затрудняло или даже делало невозможной совместную работу систем разных изготовителей без потерь в функциональности. В настоящее время большинство проблем такого рода успешно разрешено. Це­ны быстро снижаются, простота использования и надежность систем значи­тельно улучшились, а международные стандарты создаются рекордными тем­пами. Но, хотя именно в последнее время отмечался значительный прогресс, сегодняшний рывок – это результат процессов, которые происходили в течение целого ряда лет. Управление серверами видеоконференций нельзя отнести к числу сильных сторон большинства продуктов. Хотя они и поддерживают управление на базе Web и SNMP, данные возможности зачастую недостаточно развиты. Интеграция с платформами управления сетями обычно ограничена, но с массовым распространением систем видеоконференций ситуация должна улучшиться.

 

Программное обеспечение LiveLAN

 

В семейство продуктов LiveLAN 3.0 входит клиент LiveLAN, диспетчер LiveManager и шлюз LiveGateway. Клиентское приложение LiveLAN выполня­ется в среде Windows. Входящая в комплект плата PCI-захвата аудио/видео по­ставляется с цифровой камерой, микрофоном и наушниками. Кроме того, про­дукт включает инструмент для совместного использования данных под назва­нием LiveShare Plus.

LiveManager функционирует под Windows и обеспечивает управление видеоконференцией с факультативными возможностями ограничения пропуск­ной способности.

Шлюз LiveGateway обеспечивает связь между стандартами Н.320 и Н.323. Этот комплекс программного/аппаратного обеспечения функционирует под управлением Windows NT. Аппаратное обеспечение состоит из адаптера ISDN BRI (на одном сервере может быть установлено до четырех адаптеров). Прило­жение LiveManager позволяет управлять службами LiveManager на удаленных системах Windows. Система, где работает LiveManager, должна иметь фиксированный IP-адрес, чтобы рабочие станции LiveLAN знали, куда обращаться. Инсталляция LiveGateway проходит без проблем, хотя адаптер ISDN BRI использует прерывание, а на современных ПК это может оказаться серьезным ограничением. PictureTel располагает адаптером ISDN PRI, в котором данное ограничение устранено: один PRI-адаптер способен поддерживать несколько соединений Н.320 и задействовать при этом одно прерывание.

LiveLAN поддерживает Н.323, но нестандартные функции данного продукта отличаются большим разнообразием. Например, заглянув в адресную книгу, вы можете увидеть, что каждой записи соответствует определенный тип соединения, включая Н.323, Н.320 через LiveGateway и LiveLAN.

Соединения Local LiveLAN используют идентификационные номера рабочих станций. Записи телефонной книги для звонков в удаленную сеть LiveGateway содержат телефонный номер LiveGateway ISDN и идентификаци­онный номер рабочей станции. Это позволяет автоматически устанавливать со­единения одной рабочей станции LiveLAN с другой через ISDN. Входящим вы­зовам Н.320 данная возможность недоступна, поскольку стандарт Н.320 разра­ботан для соединений типа «точка-точка». LiveGateway обрабатывает вызовы Н.320, маршрутизируя их назначенной станции оператора.

 

Программное обеспечение CU-SeeMe

 

Максимальная скорость работы пакета CU-SeeMe с камерой Connectix QuickCam - 10 кадров/с, и если находящиеся в кадре не совершали резких дви­жений, изображение передается весьма плавно. При использовании модема со скоростью передачи ниже 28,8 кбит/с движения в кадре становились дерганы­ми, а звуковое сопровождение очень далеким от синхронного. В пакет CU-SeeMe включено приложение Four11 той же компании, позволяющее зарегистрировать свой IP-адрес в каталоге, расположенном на Web, благодаря чему пользователи CU-SeeMe за пределами вашей организации смогут найти ваш ад­рес и инициировать прямое соединение видеоконференцсвязи.

Пакет CU-SeeMe поддерживает многосторонние конференции, хотя дм этого необходимо установить на другой системе, работающей под управлением Windows или Unix и имеющей свой IP-адрес, ПО Reflector компании White Pine. Участники конференции должны соединяться через узел с установленным ПО Reflector. Механизм защиты позволяет ограничить число участников, присвоив каждому из них уникальные идентификатор и пароль. Любой участник видео­конференции видит список всех других участников и может определить, кто его слышит и видит. Кроме того, если кому-то необходимо поговорить автономно, имеется возможность перевести конференцию в режим «один на один».

В состав CU-SeeMe и VideoPhone включены также резидентные «слу­шающие» программы, которые автоматически предупреждают пользователя и запускают приложение для проведения видеоконференции при поступлений звонка. Пакет позволяет устанавливать минимальную и максимальную скоро­сти передачи и приема. Скорость передачи/приема по умолчанию составляет 80 кбит/с, ее можно увеличить до 999 кбит/с. Если вы соединяетесь через модем, то вам, скорее всего, придется снизить скорость, чтобы она соответствовала его возможностям. CU-SeeMe дает возможность производить и более тонкие настройки – изменять коэффициент гамма – коррекции и частоту I-кадров. Для того чтобы сделать принимаемое видеоизображение более плавным и снизить потери данных, видеокодек обычно не выводит на экран каждый принятый кадр полностью. Вместо этого он определяет различия между двумя кадрами и добавляет новую информацию к предыдущему кадру. Чтобы скрыть неизбежные потери данных, имеющие место при передаче видеоизображения, видеокодек периодически «размазывает» полный кадр на ряд других кадров. Более надежные, т.е. с меньшим уровнем шумов, средства передачи обычно выигрывают за счет более частого включения полных кадров.

 

Программное обеспечение NetMeeting

 

Система NetMeeting предусматривает несколько возможностей проведе­ния конференций документов. После установления соединения со своим колле­гой, принимающий участие в конференции, вы можете передавать файлы или совместно использовать информацию через общий буфер обмена. Плюс к этому NetMeeting позволяет разделять приложения тем же образом, что и программы удаленного управления. Для работы в более свободном режиме вы можете применять общую «грифельную доску». Каждый участник конференции имеет возможность делать свои комментарии на грифельной доске. В конференции данных может принять участие несколько человек, но аудио- или видеоконфе­ренции рассчитаны исключительно на двух участников. Тем не менее, у вас есть возможность организовать несколько персональных («тет-а-тет») аудио или видеоконференций и переключаться с одной на другую.

В состав NetMeeting входит один клиент NetMeeting и Internet Locator Service. Клиент NetMeeting работает под управлением 32-разрядных операци­онных систем Windows. Что касается аппаратного обеспечения, приемлемой базой для клиента NetMeeting может служить только процессор Pentium, а из­влечь все преимущества из NetMeeting можно только с помощью современного аппаратного обеспечения захвата видеоизображений вместе с камерой.

Установка стандартного клиента гарантирует поддержку модемных и се­тевых соединений (для сетей IP и IPX). Конференции документов (совместное использование приложений, дискуссии и передача файлов) могут осуществ­ляться по модемным каналам или сетевым IPX-соединениям, но аудио- и ви­деоконференции требуют IP. Клиенты NetMeeting во многом похожи на Internet Explorer компании Microsoft; основное отличие между ними - в окнах с заклад­ками. Окно Directory обеспечивает интерфейс с ILS. К сожалению, в каждый момент времени можно работать только с одним ILS, но возможность быстрого переключения между несколькими ILS в значительной степени спасает поло­жение. ILS — не единственный способ установить соединение. Ссылки HTML в виде CALLTO:ADDRESS позволяют сделать это с помощью IP-адреса, имени Домена и даже адреса электронной почты. В последнем случае поиск адресата осуществляет ILS. Этот тип связи применяется, например, в таких приложениях, как справочная служба. Закладка SpeedDial позволяет быстро позвонить тем, кто вам недавно звонил. Закладка Current Call показывает, с кем вы общаетесь в данный момент, и отображает видеоизображения для вызовов в рамках видеоконференции. Окно History содержит список последних вызовов NetMeeting можно сконфигурировать так, чтобы входящие звонки сопровождались появлением на экране диалогового окна с информацией о звонящем (это весьма удобно, когда вы ограничены во времени и не в силах отвечать на каждый звонок). С другой стороны, NetMeeting можно установить в режим автоот­ветчика.

В режиме многопользовательской конференции одна из рабочих станций NetMeeting выступает в качестве организатора. Участники конференции звонят на хост, чтобы присоединиться к конференции (они могут подключаться или отключаться от конференции в течение всего времени ее проведения). После начала конференции участники могут использовать функции дискуссии, обще­го буфера обмена, грифельной доски, передачи файлов и разделения приложе­ния. Дискуссии ориентированы на текст и реализуются с помощью окна, где вы набираете текст и видите, что печатают другие. Обычно вводимый вами текст видят все участники, но вы можете посылать сообщения выборочно. Такой процесс называется «перешептывание». Стенограмму дискуссии можно сохра­нить. Общий буфер обмена позволяет вам копировать информацию из локаль­ного приложения, при этом другой участник конференции может вставить ее в свое удаленное приложение. Это особенно полезно в сочетании с функцией разделения приложения, дающей возможность видеть приложения, запускае­мые на удаленном ПК. С помощью NetMeeting вы можете управлять удаленным приложением и помещать скопированную вами информацию из буфера обмена на свой локальный ПК.

Как и большая часть программ удаленного управления, функция разделе­ния приложений в NetMeeting работает таким образом, чтобы объем информа­ции, пересылаемой для обновления удаленных экранов, был минимален. Ин­формация кэшируется на удаленном узле, так что при повторном использова­нии элементов всю информацию пересылать не надо. Эта технология позволяет отслеживать обновление экрана и контролировать модернизацию экранов. Если информация в выходной очереди будет «перекрыта» новыми данными, то NetMeeting удалит более старую информацию. Таким образом, как и при работе любой программы удаленного управления, удаленные клиенты видят информа­цию с некоторой задержкой относительно момента ее ввода. В случае обновле­ния сложного изображения приложение может работать медленнее из-за боль­шого объема информации, пересылаемой удаленным клиентам.