УЗБЕКСКОЕ   АГЕНТСТВО   СВЯЗИ  И  ИНФОРМАТИЗАЦИИ

ТАШКЕНТСКИЙ   УНИВЕРСИТЕТ   ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ                                                    

 

Факультет «Радиотехники, радиосвязи и телерадиовещания»

 

Кафедра телевидения и радиовещания

 

КОНСПЕКТ ЛЕКЦИЙ

ПО ОСНОВАМ ТЕЛЕВИДЕНИЯ И РАДИОВЕЩАНИЯ

для курса повышения квалификации сотрудников ЦЭМС УзАСИ

 

 

 

 

Ташкент – 2008

 

 

СОДЕРЖАНИЕ

 

 

1.     Лекция 1. Системы и стандарты аналогового черно-белого ТВ .. 5

 

 

 

 

Введение..............................………………………………......     

 

 

 

 

 

 

 


Лекция 1. Системы и стандарты аналогового черно-белого ТВ

1.1.            Основные положения и история ТВ систем

1.2.            Развертка

1.3.            Состав и форма ТВ сигнала

1.4.            Стандарты черно-белого ТВ

 

 

1.1.            ОСНОВНЫЕ ПОЛОЖЕНИЯ

 

Термин «телевидение» (видение на расстоянии или дальновидение) возник в 1890 г.

            В настоящее время телевидением называется область современной радиоэлектроники, которая занимается передачей и приемом движущихся и неподвижных изображений предметов, расположенных в пространстве, электрическими средствами связи в реальном и измененном масштабе времени.

 

В основе ТВ лежат 3 физических процесса:

1.      Преобразование световой энергии в электрические сигналы;

2.      Передача и прием электрических сигналов по каналу связи;

3.      Преобразование электрических сигналов в оптическое изображение

 

     Изображение, которое нам демонстрирует телевизор, — иллюзия, возникающая благодаря инерционности нашего зрения. На самом деле в каждый момент времени на экране присутствует одна единственная точка. Но благодаря развертке — процессу быстрого перемещения светящейся точки по экрану — телевизор создает            оптическое изображение.

В первых ТВ системах развертка изображения осуществлялась с помощью особого диска, изобретенного в 1884 г. немецким студентом Паулем Нипковым названным "диском Нипкова". Он представляет собой непрозрачный диск большого диаметра По внешнему краю диска спирально сверлились отверстия (от 18 до 240 — по числу строк развертки) со строго заданным расстоянием между собой и определенным шагом спирали Архимеда.

 

Рис. 1.1. Оптико-механическая ТВ система с диском Нипкова.

 

(рис.1.1-б), около внешнего края которого расположены отверстия по спирали Архимеда, диаметр которых определяет размеры элемента изображения, причем, каждое отверстие имеет смещение по  радиусу к центру на величину  его диаметра. Перед диском расположена ограничительная рамка, определяющая размер изображения. Высота соответствует расстоянию по вертикали между началом  и  концом  спирали,  а ширина – расстоянию между отверстиями. При вращении диска внутри рамки оказывается только одно отверстие, которое прочерчивает строку, число которых соответствует числу отверстий, а за один оборот передаются все элементы изображения. Перед диском Нипкова размещался объектив, а позади — фотоэлемент, преобразовывавший разворачиваемую картинку в электросигнал. Таковой была механическая телекамера.

В механическом телевизоре позади диска Нипкова размещалась неоновая лампа, яркость свечения которой изменялась синхронно с выходным напряжением фотоэлемента телекамеры. Скорость и фаза вращения дисков на передающей и приемной стороне синхронизировались вручную или специальной схемой рис.1.1. На рис. 1.2. представлено  устройство передающей камеры и дискового телевизора.

Простота конструкции Нипкова позволила в последствии создать целый ряд действующих оптико-механических систем ТВ. Так в Москве в апреле 1931 г. коллектив электротехнического института под руководством Шмакова П.В. осуществил экспериментальную радиопередачу сигналов изображения в Ленинград, а с четкостью 30 строк и частотой кадров 12,5 Гц. (1200 элементов изображения) на волнах 379 и 720 м. Начиная с осени 1934 г., эти передачи стали регулярными. Электромеханическое телевещание работало в Киеве, Ленинграде, Москве, Нижнем Новгороде, Одессе, Смоленске, Томске и Харькове. Годом позже Ленинградский завод им. Козицкого выпустил первую партию советских телевизоров (модель Б-2)

Рис.1.2 Дисковая ТВ камера Бэрда и устройство электромеханического телевизора

 

Рис.1.3.Первый советский механический телевизор В-2

Рис.1.4. Второй советский механический телевизор «Пионер» (1934)

 

Рис.1.5 Дизайн ТВ-приемников делали на любой вкус (1928)

 

К 1934-35 г. были разработаны оптико-механические системы с использованием зеркальных барабанов с разверткой на 180 и даже 375 строк,  но при увеличении числа строк разложения уменьшалось время считывания каждого элемента, что приводило к падению чувствительности, т.к. сигнал генерировался только во время прохождения светового потока через отверстие, а все остальное время не использовался. Такие системы являются системами мгновенного действия. Кроме того, для увеличения размеров изображения нужно было увеличивать размеры вращаемого диска, однако, никакие дальнейшие усовершенствования не могут заметно улучшить качество изображения, в силу органических недостатков оптико-механических систем.

Для решением проблемы улучшения качества изображений был необходим переход к электронному телевидению. Основоположником его считается русский ученый Борис Розинг Б.Л., запатентовавший первую приемную электронно-лучевую трубку – прообраз КИНЕСКОПА в 1907 г. и создавший работающую систему, где на передающем конце еще использовал оптико-механическую систему.

 

Электронное ТВ

     В конце 20-х гг. прошлого века одновременно в нескольких странах были проведены успешные эксперименты по электронному телевидению. Экспериментальные передачи движущегося изображения осуществлялись в Германии, Великобритании, СССР, США, Франции и Японии.

     В 1927 г. профессор Такаянаги — отец японского ТВ и основатель компании Victor, более известной как JVC, — провел серию успешных опытов с катодной трубкой Брауна и добился устойчивой передачи неподвижного изображения электронным методом. Его телевизионная система имела интересную особенность. Рассудив, что габариты студийной передающей камеры менее критичны, чем размер телевизора, Такаянаги использовал электромеханическую телекамеру и приемник с трубкой Брауна, создав прообраз «нормального» кинескопного телевизора (как у Розинга) рис.1.6. Это оказалось революционным для своего времени решением. Кстати, японцам принадлежит еще одно важное изобретение, соприкасающееся с телевидением. В 1924 г. профессор Токийского инженерного колледжа при Императорском университете Хидецугу Яга создал направленную антенну с пассивными элементами, которую в СССР именовали волновым каналом, а в остальном мире — антенной Яги. Долгое время волновой канал Яги служил основной телевизионной антенной во всем мире.

Рис.1.6. Электронный телевизор Такаянаги (1937)

 

Первый проект полностью электронной системы ТВ был реализован в Ташкенте в 1925 г. под руководством Грабовского, где и на приемной и передающей стороне использовались специальные электронно-лучевые трубки, однако большую известность получил ученик Розинга В.К.Зворыкин, считающийся отцом электронного телевидения. Трудовую деятельность в Штатах русский эмигрант начинал в компании Westinghouse. Но его первые работодатели электронное ТВ проспали. Зато Radio Corporation of America (RCA) щедро спонсировала работы Зворыкина, да еще хорошо заплатила Владимиру Кузьмичу за его изобретения. К середине 30-х гг. RCA стала монопольным держателем телевизионных патентов и одной из первых в мире начала электронное ТВ-вещание. А в начале 50-х гг. прошлого века специалисты этой корпорации придумали первую электронную систему цветного телевещания NTSC. А основателем RCA был — российский эмигрант Давид Сарнов, который 14 апреля 1912 г. оказался единственным человеком в мире, услышавшим сигнал бедствия с тонущего «Титаника». Узнав об этом, президент США распорядился приостановить работу всех американских радиостанций, не причастных к спасательной экспедиции. А Сарнов, просидевший трое суток за пультом приемной станции Маркони, покинул свой пост в ранге национального героя.

Рис.1.7. Первый серийный цветной телевизор RCA CT-100 (NTSC)

 

 

Видеомагнитофон был создан в США компанией Ampex, Причем, эта фирма была основана Александром Потаповичем Понятовым, бывшим полковником царской армии, военным связистом. Он эмигрировал из России в 1917 году. Именно фирма Понятова в 1948 г. создала первый американский катушечный магнитофон Ampex-200, а в 1956 г. — первый в мире видеомагнитофон Ampex VRX-1000 (другие названия — Model-IV, Mark-IV). Одним из учеников А.П.Понятова был Рэй Долби: изобретатель шумоподавителей Dolby A, B, C, S; системы повышения качества магнитной звукозаписи Dolby-HX (совместно со специалистами датской фирмы Bang & Olufsen); систем многоканального звучания Dolby Surround, Dolby Pro Logic, AC-3 и пр.

 

1.2.РАЗВЕРТКА

Как уже говорилось – разверткой называется процесс последовательной, поочередной передачи элементов изображения.

При выборе типа развертки для  ТВ системы необходимо обеспечить  одинаковое время передачи каждого элемента, минимальные потери на обратный ход и простоту технической реализации. Всем этим требованиям  наиболее полно отвечает линейная развертка. Поэтому в вещательном ТВ и большем числе прикладных систем используют линейные развертки: чересстрочную и прогрессивную (построчную).

 В ТВ используются 2 развертки: горизонтальная – строчная и вертикальная – кадровая, причем, за направление движения развертывающего элемента  (обычно электронного луча) принято движение слева направо для строчной развертки (СР)  и сверху вниз для кадровой (КР), причем, изображение на экране телевизора можно получить только при совместной работе строчной и кадровой разверток.

 При работе развертки различают ее прямой и обратный ход. Во время прямого хода происходит снятие или отображение видеоинформации (активная часть), при этом луч движется слева направо для СР и сверху вниз, а при обратном ходе (пассивная часть) возвращается назад, как показано на рис.1.8.

Рис.1.8. Линейно-строчная развертка

 

При частоте кадров 50 Гц и числе строк разложения 625 (прогрессивная развертка) - рис.1.9 (а), полоса частот ТВ сигнала получается около 13 МГц, что 40-е годы заняло бы половину коротковолнового диапазона, используемого тогда для ТВ вещания. Поэтому для уменьшения требуемой полосы частот канала было решено использовать чересстрочную развертку, в которой ТВ кадр передается за 2 полукадра (поля – четного и нечетного) в каждом из которых передается половина строк (312.5), как показано на рис.1.9(б). Причем, в первом полукадре происходит развертка нечетных строк, а во втором – четных. Частота полей выбирается равной 50 Гц, а полный кадр имеет частоту 25 Гц и хотя в каждом полукадре разворачивается лишь 312,5 строк, за счет инерционности зрения изображения дух полукадров воспринимается слитно как один кадр с 625 строками.  При этом полоса частот канала снижается до 6.5МГц.

Рис.1.9. Принцип построчной (а) и через строчной развезвертки (б)

 После каждой строки и каждого кадра во время обратного хода передаются специальные синхронизирующие импульсы, определяющие привязку к началу координат разверток по строкам и кадрам, передающего и приемного устройств. Точность синхронизации и постоянство скоростей развертки по строке и кадру определяют точность воспроизведения геометрического соответствия деталей изображения на приеме и передаче (рис. 1.10).

Рис.1.10. Синхронизация разверток передающей и приемной стороны

 

 

1.3. СОСТАВ И ФОРМА ТВ СИГНАЛА

 

В состав полного ТВ сигнала вещательного стандарта, форма которого по строкам и кадрам представлена на рис.1.11, входят следующие компоненты:

1.    Видео (яркостной) сигнал.

2.     Строчные  и кадровые гасящие импульсы (СГИ и КГИ).

3.    Строчные и кадровые синхронизирующие импульсы (ССИ и КСИ).

4.    Врезки в КСИ двойной строчной частоты.

5.    Уравнивающие импульсы.

6.    Постоянная (яркостная) составляющая.

 

            Форма видеосигнала. Величина видеосигнала, получаемого на выходе фотоэлектрического преобразователя, является функцией времени и пропорциональна яркости передаваемых элементов изображения, например, для черно-белого изображения показанного на рис.1.11, высокий уровень сигнала  соответствует белому цвету соответствует, низкий уровень- черному цвету, а промежуточные уровни сигнала -  градациям серого.

Рис.1.11. Формирование видеосигнала

а) передаваемое изображение, б) сигнал при развертки строки а-а

 

Рис.1.12. Форма ТВ сигнала за период строки (а) и кадра (б)

 

            Рассмотрим назначение составных частей полного ТВ сигнала (ПТВС).

1.          Видео сигнал несет информацию о яркостях передаваемых точек изображения – это то, что мы видим на экране телевизора.

2.          Строчные к кадровые гасящие импульсы (СГИ и КГИ) предназначены для гашения лучей передающих трубок и кинескопа на время обратного хода разверток по строкам и кадрам соответственно. Это необходимо для того, чтобы  светлые линии обратного хода не создавали помех на изображении в виде ряби от горизонтальных линий строчной развертки и наклонных линий по экрану от кадровой. Гасящие импульсы передаются в конце каждой строки и полукадра на уровне черного (рис.1.12)

3.          Строчные и кадровые синхронизирующие импульсы (ССИ и КСИ) предназначены для обеспечения синхронной (одновременной) работы развертывающих устройств не передающей и приемной стороне. Этим достигается привязка начала координат разверток по горизонтали и вертикали телевизора и передающего оборудования. Это очень важные составляющие ПТВС, поскольку отсутствие КСИ приведет к срыву кадровой синхронизации, где изображение будет бежать вверх или вниз, а отсутствие ССИ к срыву строчной синхронизации, где изображение будет бежать влево или вправо.

4.          Врезки в КСИ  обеспечивают нормальную работу строчной синхронизации во время действия КСИ. Отсутствие врезок приведет к искажению изображения в верхней части экрана за счет срыва строчной синхронизации во время действия КСИ, так как при одинаковом размахе синхроимпульсов во время действия КСИ ССИ передаваться не будут.

5.          Уравнивающие импульсы предотвращают слипание строк четного и нечетного полукадра. Дело в том, что при через строчной развертке в каждом поле разворачивается 312,5 (целое число + половина) строк, причем, если нечетный полукадр начинается с начала строки, то четный с ее половины (рис.4.3).  При этом меняется интервал между соседними строчными и кадровыми синхроимпульсами. Кроме того, в КСИ нечетного полукадра находится 3 врезки, а  в КСИ четного полукадра – 2. Для выравнивания импульсной картины в четном и нечетном полукадрах применяют врезки двойной строчной частоты, а также вводят специальные уравнивающие импульсы двойной строчной частоты по 5 штук до и после КСИ, как показано на рис.1.13.

6.          Постоянная или средняя (яркостная) составляющая видеосигнала возникает из-за того, что видеосигнал по своей природе сигнал не гармонически, а импульсный, не симметричный,  следовательно он имеет постоянную составляющую, которая зависит от передаваемого сюжета изображения и может меняться с частотой 2-3 Гц.

 

Если принять размах всего ПТВС за 100 %, то собственно сигнал изображения (видеосигнал)  от уровня белого то уровня черного занимает 70 %, а сигнал синхронизации располагается ниже уровня черного на 30%, т.е. его уровень - чернее черного. Это обеспечивает их надежное отделение от сигналов изображения в приемнике.

 

Рис. 1.13. Форма ПТВС при через строчной развертке

 

Верхняя частота спектра ТВ сигнала определяется по формуле:

При использовании чересстрочной развертки частота кадров снижается в 2 раза (25Гц), поэтому верхняя частота уменьшается до 6,5 МГц.

На практике, учитывая конечность размеров электронного луча и снижение вертикальной четкости за счет строчной структуры изображения, можно еще снизить верхнюю границу без заметного ущерба качеству изображения. В формулу вводится коэффициент 0,75-0,85, а частота уменьшается до 5-6 МГц.

Одной из особенностей спектра ТВ сигнала является его дискретно линейчатой спектр состоящий из гармоник строчной частоты, вокруг которых группируются достаточно узкие полосы сигналов боковых частот (рис.1.14), обусловленных вертикальной разверткой и движением деталей изображения. Образуются дискретные зоны энергии, несущие информацию о передаваемом изображении, причем энергия этих зон уменьшается с ростом номера гармоники строчной частоты, что используются для передачи сигналов цветного ТВ.

 

 

Рис.1.14. Примерный вид спектра ТВ сигнала

 

 

1.4. СТАНДАРТЫ ЧЕРНО-БЕЛОГО ТВ

 

Таблица 1.1.

Основные параметры стандартов вещательного телевидения

Основные  характеристики

Английский

ВВС-1

Американский

FCC

Западно-

европейский

Восточно-

европейский  CCIR

Французский Е

OIRT

Число строк в кадре

405

525

625

625

819

Число полей в секунду

50

60

50

50

50

Число строк в секунду

10125

15750

15625

15625

20475

Число кадров в секунду

25

30

25

25

25

Коэффициент формата

4/3

4/3

4/3

4/3

4/3

Ширина радиоканала МГц

5

6

7

8

14

Разнос между несущими частотами изображения и звука МГц

 

3,5

 

4,5

 

5,5

 

6,5

 

11,15

ПЧ изображения МГц

34,65

45,75

38,9

38

28,05

ПЧ звука МГц

38,15

41,25

33,4

31,5

39,2

Модуляция изображения

АМ+

АМ-

АМ-

АМ-

АМ+

Модуляция звука

АМ

ЧМ

ЧМ

ЧМ

АМ

 

             В настоящее время утверждены 10 телевизионных стан­дартов: В, D, G, Н, I, К, К1, L, M, N, из которых вновь разработаны только три: G, H, К. Их можно представить следующим образом: - В, G, Н - западно-европейские; - D, К, К1 - восточно-европейские; - 1 - английский; - L- французский; - М и N - американские. Однако по мере освоения диапазона ДМВ вырисовывался целый ряд различий в частотном спектре сигналов: - по номинальной полосе частот ширины диапазонов; - по числу размещения радиоканалов в каждом диапазоне; - по значениям граничных частот радиоканала; - по ширинам боковой подавленной полосы и т.д. Эти различия частотного спектра диапазона ДМВ отражены в табл.

             Помимо 10 стандартов черно-белого существуют еще 3 стандарта  цветного ТВ (PAL,  SECAM, NTSC), которые базируются на стандартах черно-белого ТВ, поэтому в мире существует 30 стандартов.

 

 

 

 

 

 


Таблица 1.2.

Основные параметров стандартов вещания

Параметр

B

D

G

H

I

K

K1

L

M

N

Диапазон волн

МВ

МВ

ДМВ

МВ

ДМВ

ДМВ

МВ

МВ

МВ

МВ

Число строк в кадре

625

625

625

625

625

625

625

625

525

625

Частота полей Гц

50

50

50

50

50

50

50

50

60

50

Частота строк Гц

15625

15625

15625

15625

15625

15625

15625

15625

15750

15625

Полоса частот видеосигнала МГц

5

6

5

5

5,5

6

6

6

4,2

4,2

Полоса частот радиосигнала МГц

7

8

8

8

8

8

8

8

6

6

Разнос несущих частот изображения и звука МГц

5,5

6,5

5,5

5,5

6

6,5

6,5

6,5

4,5

4,5

Вид модуляции несущей изображения

АМ

ОБП

АМ

ОБП

АМ

ОБП

АМ

ОБП

АМ

ОБП

АМ

ОБП

АМ

ОБП

АМ

ОБП

АМ

ОБП

АМ

ОБП

Полярность модуляции (негативная / позитивная)

Н

Н

Н

Н

Н

Н

Н

П

Н

Н

Вид модуляции несущей звука

ЧМ

ЧМ

ЧМ

ЧМ

ЧМ

ЧМ

ЧМ

АМ

ЧМ

ЧМ

Девиация частоты несущей звука, кГц

±50

±50

±50

±50

±50

±50

±50

-

±25

±25

Отношение мощностей несущих изображения и звука

10/1

20/1

10/1

5/1

10/1

20/1

5/1

10/1

5/1

5/1

10/1

10/1

10/1

5/1

10/1

5/1

10/1

Система цветного ТВ

 

 

 

 

 

 

 

 

 

 

SECAM

+

+

+

-

-

+

+

+

-

-

PAL  с поднесущей 4,43 МГц

+

+

+

+

+

+

-

-

-

-

PAL  с поднесущей 3,582 МГц

-

-

-

-

-

-

-

-

-

+

PAL  с поднесущей 3,575 МГц

-

-

-

-

-

-

-

-

+

-

NTSC  с поднесущей 3,58 МГц

 

 

 

 

 

 

 

 

+

 

NTSC  с поднесущей 4,43 МГц

 

 

 

 

 

 

 

 

 

+

 

 

 

 

 



Лекция 2. Системы цветного ТВ

2.1. Общие положения

2.2.Система NTSC

2.3. Система  SECAM

2.4. Система PAL

 

2. СИСТЕМЫ ЦВЕТНОГО ТВ

 

2.1. ОБЩИЕ ПОЛОЖЕНИЯ

 

К вещательным системам ЦТВ предъявляются следующие требования:

1.      Совместимость с системой черно-белого ТВ, под которой понимается возможность приема без помех черно-белым приемником ЦТ программ в черно-белом виде. Этот принцип обеспечивает возможность одновременного функционирования цветных и черно-белых приемников. В связи с этим при разработке принципов построения систем ЦТВ должны быть учтены параметры стандартов черно-белого ТВ. Основные параметры – это частота строчной и кадровой разверток и полоса частот, занимаемая спектром.

2.      Высокое качество цветовоспроизведения, которое оценивается степенью соответствия ТВ изображения оригиналу. Это означает, что цветность каждого элемента изображения не должна отличаться от соответствующего элемента оригинала, а отношение яркостей соответствующих элементов изображения и оригинала является величиной постоянной для всех передаваемых цветностей.

3.      Относительная простота цветного ТВ приемника при его надежности при его  экономической доступности.

4.      Перспективность ЦТВ системы с точки зрения ее дальнейшего развития, включающее повышение качества преобразования, обработки и передачи изображения, а также передачу зрителю дополнительной информации с выводом ее на ТВ экран.

5.      Совместимость стандартов для обеспечения возможности обмена программами с другими странами.

 

Человеческий глаз плохо воспринимает цвета мелких деталей. Связь между размерами детали и требующейся для ее передачи верхней границей полосы частоты, показана на рис. Многочисленные опыты показали, что с уменьшением размеров деталей их видимая цветовая насыщенность становится меньше, причем для разных цветов эти размеры различны. Подобное явление потери цветового зрения связано с различной спектральной чувствительностью глаза (наибольшая для зеленого цвета, средняя для красного и малая для синего). Зависимость этой потери приведена на рис. 2.1.

Рис.2.1. Зависимости цветовой чувствительности глаза от размеров деталей изображения

 

Из рисунка видно, что зеленые мелкие детали сохраняют различимость цвета почти до верхней границы ТВ спектра, в то время как для красных различимость падает около 1,4-1,6 МГЦ, а для синих вообще на 0,6-0,8 МГц. Это позволяет передавать цветовую информацию о двух основных цветах не в полном спектре. Кроме того, т.к. яркостной сигнал несет полную информацию о яркостных соотношениях передаваемых элементов изображения, ее можно исключить из сигналов основных цветов. Т.е. по каналу связи можно передавать ЕУ, ЕВ-У и ЕR-У. Эти два сигнала получили название цветоразностных сигналов, которые формируются в кодирующей матрице.

 

EY    = 0,30ER + 0,59EG + 0,11EB

ER-Y = 0,70ER  - 0,59EG  - 0,11EB

EB-Y = -0,30ER - 0,59EG + 0,89EB

 

Рис. 2.2. Обобщенная структурная схема кодирующей матрицы

Формирование сигналов цветности кодирующей матрицей

            Преимущества передачи цветоразностных сигналов в следующем:

1.      Вследствие того, что из этих сигналов частично исключена избыточная информация о яркости, их амплитуда обращается в 0 при передаче серых и белых деталей (на белом амплитуды основных цветов равны = ЕУ) и мала на слабонасыщенных местах;

2.      Цветоразностные сигналы упрощают построение декодирующих устройств приемника, т.к. исходные цвета могут быть получены простым суммированием цветоразностных сигналов с яркостным. Причем, сигналы основных цветов восстанавливаются сразу в полной полосе частот (высокочастотная часть спектра из яркостного), что упрощает схему декодирования

 

 

 

 

 

 

2.2. СИСТЕМА ЦТВ NTSC

 

            Разработана в США в 1950-1953 гг. национальным комитетом телевизионных систем (National Television System Committee) и утверждена  в стране как национальный стандарт. Позже была принята в большинстве стран Американского континента, Японии, Корее и др.

В NTSC, обобщенная структурная схема которой представлена на рис 10.1, передается яркостной сигнал и 2 цветоразностных EI и EQ.  Передача цветоразностных сигналов осуществляется в спектре яркостного на одной поднесущей частоте fs=3.579545 МГц (рис.2.3.а). Напряжение поднесущей частоты, промодулированное цветоразностными сигналами называется сигналом цветности. Сумма сигналов яркости EY и сигнала цветности Us образует полный цветовой сигнал. Для того чтобы модулировать двумя цветоразностными сигналами одну поднесущую частоту используют метод квадратурной амплитудной модуляции. Сущность его заключается в суммировании двух напряжений поднесущей частоты uR-Y  и uB-Y, промодулированных каждым из цветоразностных сигналов в отдельных амплитудных модуляторах. Поднесущая частота на модуляторы поступает в квадратуре, т.е. с фазовым сдвигом 900. Полученный сигнал получается промодулированным по амплитуде и по фазе, таким образом фаза  результирующего вектора Us (рис.2.3) несет информацию о цвете, а амплитуда Us определяет его насыщенность. В системе NTSC используются балансные модуляторы, которые, подавляя саму поднесущую и,  оставляют только боковые полосы. Это позволяет как минимум в 2 раза уменьшить размах сигнала цветности, что уменьшает его заметность на черно-белом телевизоре, а на неокрашенных деталях он вообще = 0 (рис.2.3.б). На приемной стороне с помощью синхронных детекторов восстанавливаются исходные сигналы цветности. Для работы синхронных детекторов необходимо опорное напряжение, работающее синфазно с поднесущей, но поскольку поднесущая при балансной модуляции не передается, то во время строчного гасящего импульса после синхронизирующего передается сигнал цветовой синхронизации – пакет колебаний поднесущей из 8-10 периодов – так называемая цветовая вспышка (рис.2.3.в)

 

Рис. 2.3. Обобщенная структурная схема системы ЦТВ NTSC

 

             

Рис.2.5.. Метод уменьшения заметности помехи от поднесущей частоты

 

Для снижения заметности  сигнала цветности на черно-белом телевизоре необходимо выбрать значение поднесущей частоты ближе к верхней границе спектра ТВ сигнала, где чувствительность глаза к мелким деталям меньше. При этом на экране телевизора возникает неподвижная помеха в виде чередования светлых и темных тоненьких вертикальных полосок. Для большего снижения заметности поднесущей применяют метод коммутации ее фазы, то есть изменение полярности  от строки к строке от полукадра к полукадру (рис.2.5).  При этом рисунок от помехи имеет вид шахматного чередования светлых и темных участков (рис 2.5). В смежных кадрах полярность поднесущей меняется на 1800 (рис.2.5.а) и участки поменяются местами, в результате чего не светлые участки помехи накладываются темные и зрительно  помеха компенсируется. Для этой цели значение поднесущей частоты необходимо, выбрать так, чтобы fS  = (2n+1)fz/2. Тогда в интервале строки размещается нечетное число полупериодов поднесущей.

Кроме того, при выполнении этого условия составляющие сигнала цветности располагаются точно посередине между  строчными и кадровыми гармониками яркостного сигнала, что позволяет с большей точностью разделить эти два спектра. Этот коэффициент достаточно просто получить в синхрогенераторе делением двойной строчной частоты – поэтому выбрали 455 fстр = 3,579545 МГц. Но выбор такой поднесущей позволяет передать лишь 0,6 МГц сигнала цветности. При этом цветовая четкость по горизонтали оказывается неудовлетворительной. После множества экспериментов нашли возможность передавать нижнюю боковую шириной 1,3 МГц без существенного ухудшения совместимости. В системе NTSC передают один узкополосный сигнал с полосой 0,6 МГц (EQ), а второй широкополосный – 1,3 МГц (EI), причем перекрестные помехи будут в спектре узкополосного сигнала на частотах, где подавлена одна боковая, т.е. вне полосы пропускания ФНЧ (0,6МГц).

 

            Основные достоинства: - хорошая совместимость за счет жесткой связи частот развертки с поднесущей и удачного выбора поднесущей;

-         эффективное использование канала – при сравнительно узкополосных сигналах цветности достигается достаточно высокое качество;

-         высокая помехоустойчивость канала цветности благодаря применению синхронного детектирования.

 

Главный недостаток чувствительность системы к дифференциальным искажениям амплитуды и фазы сигнала цветности из-за возможной модуляции его сигналом яркости, что влечет изменение цветового тона и насыщенности, разной на разноярких участках. Происходит это из-за неточной работы звеньев системы, а потому влечет за собой довольно жесткие требования к параметрам канала передачи, что усложняет и удорожает  аппаратуру.

 

 

2.4. СИСТЕМА ЦТ SECAM

            Разработка начата во Франции в 50-е годы. В 1965-66г. и затем  доработана совместно с учеными СССР и с 1967 г.и одновременно начато вещание. Распространена в странах восточной Европы, Ближнего и Среднего Востока, Африки. Названа по французским словам Seguentiel Couleur a Memoire – поочередность цветов и память.

            Главная особенность – за строку передается только один цветоразностный сигнал, которые передаются в канал передачи поочередно, что позволяет избежать перекрестных искажений, присущих NTSC. Второй важной особенностью является применение ЧМ поднесущей цветоразностными сигналами. Кроме того, для повышения помехоустойчивости передают сигналы DR  и DВ, где DR= -1,9ER-Y и DВ=1,5EB-Y. Если посмотреть формулы получения цветоразностных сигналов, то видно, что максимум ER-Y  на красном  0,7 и сине-зеленом  –0,7, а EB-Y - на желтом 0,89 и синем –0,89. Это приводит к разной девиации частоты у этих сигналов. Введение коэффициентов устраняет это (1,9х0,7=1,5х0,89=1,33). Выбор знака минус объясняется так: статистические исследования показали, что в красном преобладают положительные значения, а в синем – отрицательные. Изменив знак красного добиваются, что в обоих сигналах преобладает отрицательная девиация частоты, что повышает устойчивость системы к ограничению верхней боковой полосы сигнала цветности, возникающее в каналах связи (что особенно важно для тех стран, где уменьшена полоса частот яркостного сигнала).

            Применение ЧМ дает выигрыш   в помехоустойчивости при выборе индекса модуляции больше 1 (широкополосная ЧМ). Использовать это в SECAM невозможно из-за необходимости ограничения спектра сигналов цветности. Здесь индекс модуляции в среднем равен 0,2. Кроме того, приходится существенно уменьшить размах цветоразностных сигналов. В NTSC он достигает 120% яркостного, что благодаря отсутствию поднесущей почти незаметно на черно-белом приемнике. В SECAM ЧМ поднесущая воспринимается сильнее и приходится уменьшать размах цветоразностных сигналов до 20-25% яркостного. Все это делает ее крайне уязвимой к шумовым помехам, и без специальных коррекций, которые представлены на рис.2.6, она не смогла бы конкурировать с другими системами.

Рис.2.6. Методы повышения помехоустойчивости системы SECAM

 

Одна из них – НЧ коррекция (рис. 2.6.а),  основанная на специфическом для ЧМ спектральном распределении шума на выходе частотного дискриминатора – треугольником. Тогда максимум шума сосредоточен в верхней части спектра и, использовав цепь коррекции с АЧХ 2, можно достичь заметного улучшения отношения сигнал/шум. Однако верхние частоты сигнала также будут подавлены. Чтобы не возникли эти искажения на передающем конце производят предкоррекцию 3, которая поднимает ВЧ составляющие спектра цветоразностных сигналов на столько, на сколько они будут подавлены в приемнике. При этом для сигнала изменений не происходит, но шумы канала связи будут подавлены. Еще один вид коррекции производится до ЧД и потому получил условное название ВЧ коррекции (рис.2.6.б). Она основана на механизме взаимодействия сигнала и шума и проникновении составляющих шума на выход ЧД. Это взаимодействие будет проявляться как дополнительная девиация частоты полезного сигнала помехой, зависящая от амплитуды шума и разности частот его и сигнала. Поэтому в телевизоре корректирующей цепью подавляют ВЧ составляющие цветоразностных сигналов, а на передающей стороне их поднимают.

Предискажение сигнала на передающей стороне 3 сводится к увеличению амплитуды ЧМ сигнала в зависимости от величины девиации, т.е. сигнал цветности приобретает еще и АМ. После прохождения сигнала через ВЧ корректор АМ исчезает и он приобретает первоначальную форму. Этот способ дает заметный выигрыш не для всех цветов, потому что частота настройки корректора постоянна, а частота поднесущей меняется в зависимости от передаваемого цвета. После изучения вопроса перешли на передачу сигналов цветности на двух разных поднесущих: красный 4406,25 кГц (282 fстр), синий 4250 кГц (272 fстр), а цепь коррекции настраивают на частоту, находящуюся между поднесущими – 4286 кГц.

 

            Достоинства системы SECAM:

1. Теоретически полностью исключены перекрестные искажения      между сигналами цветности, хотя из-за несовершенства работы коммутаторов они все-таки могут проходить;

      2. Нечувствительность к дифференциально-фазовым искажениям (для        NTSC – 10-120);

     3. Меньшая чувствительность к изменениям амплитуды сигналов цветности.

 

Недостатки:

1.      Большая восприимчивость к флуктуационным помехам, особенно при достаточно малых сигналах;

2.      Худшая совместимость: в черно-белых телевизорах из-за отсутствия режекции поднесущих ее структура достаточно заметна;

3.      Сильнее проявляются перекрестные искажения яркость-цветность;

4.      Хуже цветовая четкость из-за последовательности передачи цветов, что особенно сказывается на горизонтальных границах насыщенных цветов – получается комбинация цветов.

 

 

Кодирующее устройство системы SECAM

            Кодирующее устройство системы SECAM (рис.2.7) предназначено для формирования из исходных цветов ER, EB и EG полного видеосигнала содержащего яркостной сигнал EY , сигнал  цветности US и сигнал синхронизации приемника и состоит из следующих функциональных блоков:

            ЛЗ     линия задержки

            К      -   коммутатор

            ФНЧ – фильтр нижних частот с частотой среза 1.5 МГц

            АО    -  амплитудный ограничитель

            СФУ – схема фиксации уровня

            ФД    - фазовый детектор

            ЧМГ – частотно-модулированный генератор

            ФИС  - формирователь импульсов срыва

            КФ   -  коммутатор фазы

            ГКИ – генератор коммутирующих импульсов

            КГ   -  кварцевый генератор;

            ГУИ – генератор управляющих импульсов;

            УПП – устройство подавления поднесущих;

            КПИ – корректор перекрестных искажений яркость-цветность

           

Рис.2.7. Обобщенная структурная схема кодера системы SECAM

 

Устройство работает следующим образом:

Первичные сигналы ER, EB и EG поступают на матрицу, где из них образуется яркостной и 2 цветоразностных сигнала.

            Цветоразностные сигналы DR и DB через цепи НЧ предыскажений, которые предназначены для повышения помехоустойчивости канала цветности за счет подъема уровня ВЧ составляющих цветоразностных сигналов, поступают на электронный коммутатор (К). Коммутатор обеспечивает поочередную передачу цветоразностных сигналов через строку, т.е. одна строка передает красный цветоразностный сигнал, а другая синий. С выхода коммутатора сигнал  через ФНЧ, который ограничивает спектр цветоразностных сигналов и устраняет коммутационные помехи от работы коммутатора поступает на вход амплитудного ограничителя (АО), в котором  ограничиваются выбросы сигнала, вызванные НЧ предыскажениями. С выхода АО сигнал поступает на частотный модулятор (ЧМГ), на входе которого включена схема фиксации уровня (СФУ). Основной особенностью частотного модулятора в системе SECAM  является, с одной стороны, модуляции сигналами DR и DB двух отличающихся по частоте поднесущих, с другой стороны, необходимо обеспечить высокую точность номинальных значений поднесущих (4406,25 ± 2 кГц для красного и 4250 ± 2 кГц для синего). Непосредственная стабилизация таких частот невозможна, поэтому в схеме используется импульсная автоподстройка частоты фазовым детектором (ФД) по эталонным кварцевым генераторам (КГ), которые поочередно подключаются через строк коммутатором (К). Для обеспечения подстройки ЧМГ по эталонному генератору не только по частоте, но и фазе в начале строки, используется схема формирователя импульсов срыва (ФИС), которая запускает генератор всегда с одной и той же фазы. Далее сигнал с выхода ЧМГ поступает на коммутатор фазы (КФ), который под действием генератора управляющих импульсов (ГУИ) меняет значение фазы цветовых поднесущих на 180 градусов для уменьшения их заметности на экране. С выхода КФ сигнал через цепь ВЧ предыскажений, необходимою для повышения помехоустойчивости канала цветности, поступает в устройство подавления поднесущих (УПП). УПП подавляет поднесущие на время действия синхронизирующих импульсов и управляется генератором управляющих импульсов (ГУИ). Далее сигал цветности поступает на один из входов сумматора, где смешивается с сигналом яркости.

Яркостной сигнал через линию задержки (ЛЗ) на 04-07 мкс, необходимую для задержки яркостного сигнала на время запаздывания сигнала цветности, поступает на корректор перекрестных искажений (КПИ). КПИ уменьшает влияние сигнала яркости на  сигнал цветности, поскольку цветовые поднесущие  цвета находятся в полосе частот сигнала яркости. С выхода КПИ яркостной сигнал поступает на сумматор, где смешивается с сигналом цветности и сигналом синхронизации приемника (ССП) и затем передается на в эфир.

 

 

Декодирующее устройство системы SECAM.

 

            Декодирующее устройство (рис.2.8), предназначено для получения из полного цветного ТВ сигнала (композитного) исходных RGB сигналов.

            Декодер состоит из следующих функциональных узлов:

            ВД  - видеодетектор;

            ПФ  - полосовой фильтр;

            ЛЗ   - линия задержки;

            АО  - амплитудный ограничитель;

            ЭК  - электронный коммутатор;

            ГКИ – генератор коммутирующих импульсов;

            РФ  -  режекторный фильтр;

            ЧД  -  частотный детектор

 

Рис.2.8. Обобщенная структурная схема декодера системы SECAM

 

            Декодирующее устройство SECAM, также как и кодирующее, содержит 2 канала: яркостного сигнала и цветности.

            Схема работает следующим образом. Полный цветовой сигнал Uп с видеодетектора (ВД) выделяется полосовым фильтром (ПФ) и поступает на ВЧ корректор сигнала цветности, который повышает помехоустойчивость канала цветности. АЧХ ВЧ корректора обратна АЧХ цепи ВЧ предыскажений, в результате уровень сигнала остается неизменным, а уровень помех снижается на 8 дБ. С выхода корректора сигнал через амплитудный ограничитель (АО), подавляющий паразитную амплитудную модуляцию поднесущих, поступает на вход линии задержки на строку (ЛЗ 64 мкс) и один из входов электронного коммутатора (ЭК). НА второй вход ЭК поступает, задержанный на длительность строки, сигнал с выхода ультразвуковой ЛЗ. Для нормальной работы декодирующего устройства цвета необходимо, чтобы на него поступали одновременно оба цветоразностных сигнала, а поскольку в SECAM цветоразностные сигналы передаются через строку, то ЛЗ позволяет выравнить эти сигналы во времени. Пока 1 сигал поступает напрямую, предыдущий поступает с линии задержки, а поскольку значение цветоразностных сигналов меняется через строку, то ЭК позволяет направлять соответствующий цветоразностный сигнал на свой цветовой канал. Управление ЭК осуществляется импульсами с генератора коммутирующих импульсов (ГКИ). Далее сигналы с выхода ЭК через АО, подавляющие помехи и паразитную амплитудную модуляцию, вызванную неравномерностью АЧХ ЛЗ, поступают на соответствующие частотные детекторы.

            После детектирования цветоразностные сигналы подвергаются НЧ коррекции, повышающей отношение сигнал/шум еще на 10 дБ. АЧХ корректоров обратны АЧХ цепей предыскажений на передающей стороне.

            Далее цветоразностные сигналы поступают на матрицу, где происходит формирование зеленого цветоразностного сигнала и далее на цветной кинескоп.

            Для правильной работы ЭК необходима его синхронизация по типу передаваемых цветоразностных сигналов. Эта синхронизация обеспечивается при помощи специальных импульсов цветовой синхронизации SR и SB, которые выделяются  устройством цветовой синхронизации (УЦС).

            Канал яркости содержит широкополосную ЛЗ на 0.4-0.7мкс, которая выравнивает запаздывание сигналов в канале цветности, и режекторный фильтр для подавления цветовых поднесущих в яркостном канале. Это позволяет снизить их заметность на экране телевизора.

            Для того, чтобы режекция не ухудшала четкость черно-белых передач, она отключается с помощью управляющего напряжения с устройства цветовой синхронизации.

2.5. СИСТЕМА ЦТ PAL

 

Разработана немецкой фирмой Telefunken и принята в 1966 г. в качестве стандарта большинства стран Западной Европы. В настоящее время -–самая распространенная система в мире. Названа по английской фразе “Phase Alternation Line” – чередование фазы по строкам. Может рассматриваться как удачная модернизация системы NTSC. В PAL используются те же сигналы, что и в других системах ЦТ, и квадратурная модуляция, а отличие в том, что фаза одной из квадратурных составляющих сигнала цветности от строки к строке меняется на 1800, что устраняет основной недостаток системы NTSC – чувствительность к дифференциально-фазовым искажениям, и дает ряд дополнительных преимуществ. 

Векторные диаграммы цветовых сигналов в двух соседних строках и примеры сложения и вычитания показаны на рис.2.8.

 

 

Рис.2.8. Векторные диаграммы передачи цвета в сиcтеме PAL

 

С помощью ЛЗ на строку осуществляется «запоминание» сигналов цветности, а затем оба сигнала складываются или вычитаются. Таким образом, в приемнике можно обычным детектором разделить цветоразностные сигналы. Но так как на обычные детекторы надо подавать восстановленную несущую, то их стоимость сопоставима со стоимостью синхронных детекторов и поэтому их используют также, как и в NTSC. Однако искажение цвета из-за фазовых ошибок значительно снижено из-за того, что изменение фазы через строку позволяет скомпенсировать действие помехи за счет усреднения фазовой ошибки в 2 соседних строках, как показано на рис.6.7.

Рис.2.9. Компенсация фазовых ошибок в системе PAL

 

Таким образом, при одинаковом воздействии помех на сигналы 2 строк и более, направление результирующего вектора, т.е. цветовой тон, всегда останется неизменным, а  разница будет проявляться только в насыщенности, причем чем больше фазовый сдвиг, тем больше изменение насыщенности.

Обобщенная структурная схема системы PAL представлена на рис.2.10.

 

Рис.2.10. Обобщенная структурная схема системы PAL

 

            Схема работает следующим образом. Сигналы первичных цветов ER , EG, EB в кодирующей матрице преобразуются в яркостной и 2 цветоразностных сигнала EY, EI=(R-Y) и EQ=(B-Y). Далее цветоразностные сигналы поступают на первые входы балансных модуляторов, а на их вторые входы в квадратуре (со сдвигом 900) подается частота поднесущего колебания с входа генератора поднесущей fS. Для устранения основного недостатка системы NTSC (чувствительности к дифференциально-фазовым искажениям) при помощи коммутатора фазы от строки у строке меняется фаза поднесущего колебания модулятора цветоразностного сигнала (EI), что позволяет скомпенсировать воздействие  помех. Далее 2 амплитудно-модулированных сигналов поступают на входы сумматора, где вместе с яркостным сигналом образуют суммарный композитный сигнал, который затем через канал связи передается в декодирующее устройство телевизора.

            В декодере из композитного сигнала полосовым фильтром выделяется спектр цветоразностных сигналов, который затем через линию задержки на строку поступают на одни входы сумматоров сигналов I и Q,  а на вторые входы этих сумматоров поступают эти же сигналы в противофазе. Благодаря использованию сумматоров и линии задержки на строку удается скомпенсировать фазовую ошибку цветового сигнала его зеркальным сигналом следующей строки. Далее сигналы поступают на входы синхронных детекторов, для нормальной работы которых требуется опорное колебание со сдвигом 900, формируемое устройством выделения поднесущей из сигнала цветовой синхронизации. Затем с цветоразностные сигналы с выхода СД через фильтры нижних частот поступают на декодирующую матрицу, где при помощи яркостного сигнала  формируются исходные сигналы ER , EG, EB, а для коррекции времени запаздывания цветоразностных сигналов относительно яркостного, в яркостном канале используется дополнительная ЛЗ на 0.3…0.7 мкс.

При рассмотрении системы NTSC отмечалось, что для получения компенсации сигналов цветности на ч-б ТВ частота поднесущей должна быть (2п+1)fстр/2. Для системы  PAL это неприемлемо, т.к. добавочный поворот фазы еще на 1800 в сумме даст 3600, т.е. устранит компенсацию поднесущей. Эксперименты показали, что в системе PAL поднесущая наименее заметна, если она имеет сдвиг относительно 284 гармоники fстр на ¼ + 25 Гц.

Достоинства  системы PAL те же, что и у NTSC:

-         хорошая совместимость c черно-белым ТВ

-         эффективность разделения сигналов яркости и цветности,

-         высокая помехоустойчивость к флуктуационным помехам,

-          

плюс дополнительные:

-         малая чувствительность к фазовым искажениям сигнала цветности (до 400),

-         возможность работы с частично подавленной верхней боковой полосой обеих квадратурных составляющих сигнала цветности, что очень важно, т.к. у большинства стран полоса ТВ сигнала 5,5 МГц;

-         более эффективное подавление составляющих яркостного сигнала, что уменьшает перекрестные помехи в канале цветности, т.к. блок задержки по структуре и параметрам близок к гребенчатому фильтру;

-         нет мерцания границ из-за задержки на строку, как в  SECAM, т.к. цветности двух соседних строк усредняются.

 

К недостаткам PAL можно отнести несколько большую сложность приемника по сравнению с NTSC – ЛЗ, и уменьшение цветовой четкости по вертикали за счет усреднения информации 2 соседних строк.


Лекция 3. Особенности аналого-цифрового преобразования сигналов изображения и звука

3.1.            Общие положения

3.2.            Цифровое представление ТВ сигнала

3.3.            Цифровое представление звукового сигнала

 

Термин «цифровой» («digital») относится к числу самых употребляемых в современной радиоэлектронике. На каждом шагу мы слышим и читаем о циф­ровых лазерных дисках, цифровых видеокамерах, цифровых диктофонах, циф­ровых телефонах и т.п

В аналоговых (то есть не цифровых) радиоэлектронных устройствах и сис­темах информация передается, обрабатывается, хранится в виде непрерывно изменяющихся физических величин - аналоговых сигналов. Самый распро­страненный вид сигнала - это переменное напряжение. На рис. 3.1 показаны фрагменты телевизионного и звукового сигналов.

Рис. 3.1. Аналоговые телевизионный сигнал (а) и звуковой сигнал (б)

 

ТВ системы, где для передачи, консервации, обработки и приема используется аналоговый сигнал, называются аналоговыми. Эти системы имеют ряд недостатков, серьезно, сужающие возможности развития ТВ. Одним из главных является низкая помехоустойчивость аналогового сигнала, который подвергается воздействию шумов и помех в каждом звене длиной цепи устройств преобразования и передачи сигналов, число звеньев которой с развитием ТВ сильно увеличивается. При аналоговой системе передачи помехи каждого звена накапливаются. Сейчас используется большое количество аппаратуры различных спецэффектов, разнообразящих передачу, но требующих дополнительных преобразований сигналов. Поэтому повышение помехозащищенности приобретает все более важное значение. Существенно уменьшить искажения от помех и решить ряд других задач позволяют цифровые методы.

В таких системах на вход тракта цифрового ТВ поступает аналоговый сигнал, где он кодируется, т.е. преобразуется в цифровую форму. Это преобразование представляет комплекс операций, основными из которых являются: дискретизация, квантование и непосредственно кодирование.

Дискретизация – замена непрерывного аналогового сигнала последовательностью отдельных во времени значений уровня сигнала (отсчетов), которые при равномерной дискретизации, выбираются по теореме Котельникова. По этой теореме для того чтобы передать любой непрерывный сигнал, имеющий ограниченный спектр частот (рис. 3.2,а), достаточно передавать его значения с частотой дискретизацией ³2Fmax (рис.3.2,б), где Fmax – максимальная частота спектра исходного сигнала. Для восстановления исходного аналогового сигнала отсчеты необходимо пропустить через идеальный ФНЧ со срезом на Fmax.

В ТВ чаще всего применяется дискретизация с постоянной частотой, которая может быть связана, или не связана с частотами развертки. При жесткой связи получается постоянное число отсчетов в строке, соответствующее одним и тем же элементам изображения, а на изображении получается фиксированная ортогональная структура дискретизации, где отсчеты располагаются в узлах прямоугольной решетки. Этот способ сейчас наиболее распространен в цифровых устройствах ТВ вещания.

Рис.3.2. Преобразование аналогового сигнала в цифровую форму

 

Рис.3.3. Аналого-цифровое преобразование. Квантование

 

После дискретизации следует процесс квантования – замене мгновенных значений отсчетов ближайшими из набора отдельных фиксированных уровней (уровней квантования). Это тоже дискретизация, но не времени, а по уровню (рис.3.2,в). При этом разница между уровнями квантования называется шагом квантования, а округление отсчетов до верхнего или нижнего уровня определяется порогом квантования. По своему смыслу операция квантования предполагает появление ошибки между истинным значением сигнала и его квантованным приближением – ошибки или шумов квантования.

Квантованный сигнал, в отличие от исходного аналогового, может принимать только конечное число значений. Это позволяет представить его в пределах каждого интервала дискретизации числом, равным порядковому номеру уровня квантования. В свою очередь это число можно выразить комбинацией некоторых знаков или символов. Совокупность знаков (символов) и система правил, при помощи которых данные представляются в виде набора символов, называют кодом. Конечная последовательность кодовых символов называется кодовым словом. Квантованный сигнал можно преобразовать в последовательность кодовых слов. Эта операция и называется кодированием. Каждое кодовое слово передается в пределах одного интервала дискретизации. Для кодирования сигналов звука и изображения широко применяют двоичный код. Если квантованный сигнал может принимать N значений, то число двоичных символов в каждом кодовом слове n >= log2N. Один разряд, или символ слова, представленного в двоичном коде, называют битом. Обычно число уровней квантования равно целой степени числа 2, т.е. N = 2n.

0000 – 0     0100 – 4     1000 – 8     1100 - 12

0001 – 1     0101 – 5     1001 – 9     1101 - 13

0010 – 2     0110 – 6     1010 – 10   1110 - 14

0011 – 3     0111 – 7     1011 – 11   1111 - 15

Рис.3.4. Аналого-цифровое преобразование и двоичное представление чисел

 

.

Дискретизация, квантование и кодирование обычно выполняются одним устройством – аналого-цифровым преобразователем (АЦП), а обратное преобразование производится в цифро-аналоговом преобразователе (ЦАП).

Исследования цифрового способа передачи применительно к ТВ начались еще в 30-е годы, но лишь недавно началось его применение в вещательном ТВ. Это обусловлено жесткими требованиями к быстродействию устройств преобразования и передачи цифрового сигнала поскольку для вещательного ТВ сигнала с верхней частотой спектра 6 МГц необходима частота дискретизации fтакт=12 МГц. В системах ЦТВ для унификации цифрового ТВ сигнала стандартов различных стран ее устанавливают равной 13,5 МГц. Для обеспечения максимального числа градаций яркости различимых глазом, которое колеблется от 100 до 200 необходимо использовать 7 или 8 разрядный код, обеспечивающий 128 или 256 полутонов. При этом скорость передачи составит C=Nfтакт= 8*13.5=108 Мбит/с, где N – разрядность кода. Таким высоким быстродействием должны обладать как устройства обработки ТВ сигнала, так и каналы связи для его передачи, что технически трудно реализуемо

Для сокращения требуемой скорости передачи используют специальные методы сжатия ТВ сигналов,  за счет устранения информационной избыточности, которую разделяют условно на статистическую и физиологическую.

Статистическая избыточность определяется свойствами изображений, которые не являются в общем случае хаотическим распределением яркостей, а описываются законами, устанавливающими определенные связи (корреляцию) между яркостями отдельных элементов. Особенно велика корреляция между соседними в пространстве и времени элементами изображения, что позволяет не передавать многократно одну и ту же информацию, и тем самым  сократить цифровой поток.

Физиологическая избыточность обуславливается ограниченностью возможностей зрительного аппарата человека, то есть можно не передавать  в сигнале информацию, которая не будет воспринята нашим зрением.

 

3.2. ЦИФРОВОЕ ПРЕДСТАВЛЕНИЕ ВИДЕО СИГНАЛА

 

Компонентный телевизионный видеосигнал может быть представлен в цифровой форме в соответствии с Рекомендацией ITU-R 601. Эта рекомендация устанавливает правила раздельной дискретизации, квантования и кодирования сигнала яркости Y и двух цветоразностных сигналов R-Y (Cr) и B-Y (Cb). Частота дискретизации для яркостного сигнала Y установлена равной 13,5 МГц, для цветоразностных сигналов - 6,75 МГц, т.е. частота дискретизации яркостного сигнала в 2 раза больше частоты дискретизации цветоразностных сигналов. Если взять, как принято, в качестве условной (базовой для иерархии цифровых стандартов) единицы частоту 3,375 МГц, то частоты дискретизации яркостного и двух цветоразностных сигналов будут находиться в соотношении 4:2:2, которое и дает часто используемое название стандарта.

Рис.3.5. Кодирование компонентного видеосигнала (4:2:2).

При таких значениях частот дискретизации можно практически преобразовать без искажений в цифровую форму сигнал яркости в полосе до 5,75 МГц, а цветоразностные сигналы - в полосе до 2,75 МГц (надо помнить о запасном интервале между граничной частотой сигнала и половиной частоты дискретизации). Стандарт 4:2:2 используется в качестве базового при оценке других вариантов дискретизации, и на значение 5,75 МГц часто ссылаются как на границу полной полосы ТВ сигнала. Рис.3.5 показывает дискретизацию компонентного телевизионного сигнала на примере сигнала цветных полос. Длина кодового слова - 10 двоичных разрядов - битов (в первоначальном варианте - 8 битов), что позволяет перенумеровать 1024 уровня квантования. Однако числа 0..3 и 1020..1023 резервируются для цифровых синхронизирующих сигналов. Для квантования яркостного сигнала выделяется 877 уровней (значение черного в видеосигнале соответствует уровню квантования 64, а номинальное значение белого - уровню 940). Для квантования цветоразностных сигналов выделяется 897 уровней, причем нулевому значению аналогового сигнала соответствует уровень квантования 512. Кодированию подлежат гамма-корректированные сигналы. Приведенные диапазоны уровней квантования часто используются при сравнении с другими вариантами квантования. В этом случае на них часто ссылаются как на показатели динамического диапазона или полного разрешения по уровню сигнала, поскольку число уровней квантования определяет шум квантования и, соответственно, динамический диапазон. В этом же смысле иногда говорят о 10-битном разрешении.

Рис.3.6. Кодирование компонентного видеосигнала (4:2:2). Структура дискретизации.

Частоты дискретизации представляют гармоники строчной частоты, что обеспечивает неподвижную ортогональную структуру отсчетов ТВ изображения (рис. 3.6). Величинам 13,5 и 6,75 МГц кратна, как частота строчной развертки стандарта телевизионного разложения 625/50, так и частота развертки стандарта 525/60. Собственно, выбор в качестве базовой именно частоты 3,375 МГц во многом связан с соображениями кратности с частотами строчной развертки двух мировых стандартов разложения. Это важно потому, что позволило ввести единый мировой стандарт цифрового кодирования компонентного видеосигнала, при котором в активной части строки содержится 720 отсчетов яркостного сигнала и по 360 - каждого цветоразностного. Различие в системах 625/50 и 525/60 заключается в разном числе строк и несколько отличающейся длительности интервала гашения. Полная скорость передачи цифрового компонентного видеосигнала составляет 10 х 13,5 + 10 х 6,75 + 10 х 6,75 = 270 Мбит/с.

Рис.3.7. Кодирование компонентного видеосигнала (4:4:4).

Существуют и другие форматы представления компонентного сигнала в цифровом виде. Кодирование по стандарту 4:4:4 предполагает использование частоты 13,5 МГц для всех трех компонентов: R, G, B или Y, Cr, Cb (рис.3.7.). Это означает, что все компоненты передаются в полной полосе. Для каждого компонента в активной части кадра оцифровывается 576 строк по 720 элементов. Скорость цифрового потока при 10-битовом слове составляет 405 Мбит/с.

Рис.3.8. Кодирование компонентного видеосигнала (4:4:4:4).

Формат 4:4:4:4 описывает кодирование четырех сигналов (рис.3.8), три из которых являются компонентами видеосигнала (R, G, B или Y, Cr, Cb), а четвертый (альфа-канал) несет информацию об обработке сигнала, например, о прозрачности изображения переднего плана при наложении нескольких изображений. Дополнительным четвертым сигналом может также быть сигнал яркости Y в дополнении к сигналам основных цветов R, G, B. Частота дискретизации всех сигналов - 13,5 МГц, т.е. все сигналы передаются в полной полосе. Скорость передачи данных при 10 битах на слово равна 540 Мбит/с.

Рис.3.9 Кодирование компонентного видеосигнала (4:1:1).

Формат 4:1:1 предлагает двукратное уменьшение частоты дискретизации цветоразностных сигналов (в сравнении со стандартом 4:2:2). Яркостной сигнал Y дискретизируется с частотой 13,5 Мгц, а цветоразностные (Cr и Cb) - 3,375 Мгц. Это означает и двукратное уменьшение горизонтального разрешения в цвете. В активной части кадра 576 строк, каждая из которых содержит 720 элементов сигнала яркости и по 180 - цветоразностных сигналов (рис. 3.9).Формат 4:2:0 предлагает изображение, в котором яркостная компонента Y содержит в активной части кадра 576 строк по 720 отсчетов, а цветоразностные компоненты Cr и Cb - 288 строк по 360 отсчетов (рис. 3.10).

Рис.3.10 Кодирование компонентного видеосигнала (4:2:0).

Варианты кодирования 4:1:1 и 4:2:0 характеризуются одинаковой скоростью передачи данных - 202,5 Мбит/с для длины кодового слова в 10 бит и 162 Мбит/с - для 8 бит на слово. Если передавать только активную часть изображения (без обратного хода), то величина цифрового потока при 8 битах на слово составит 124 Мбит/с. Цифровые сигналы этих двух форматов могут быть получены из сигналов стандарта 4:2:2 путем предварительной обработки и децимации (прореживания отсчетов) с целью сокращения скорости потока. Формат 4:1:1 оказывается более удобным для систем со стандартом разложения 525/60, а формат 4:2:0 - для систем 625/50. Это связано с тем, что потеря вертикальной четкости более заметна в системе с меньшим числом строк (525/60), а потеря горизонтальной четкости более заметна в системе 625/50.

Рис.3.11 Кодирование компонентного видеосигнала (3:1:1).

 

3. 3. ЦИФРОВОЕ ПРЕДСТАВЛЕНИЕ ЗВУКОВОГО СИГНАЛА.

Человек воспринимает звук в диапазоне от 15 Гц до 22 кГц; рис 3.12. с возрастом рамки сужаются, и средний взрослый человек слышит звуки от 20 Гц до 18 кГц. Такая же ситуация и с восприятием амплитуды волны, то есть с громкостью. Динамический диапазон человеческого уха составляет 96 дБ то есть, самый громкий звук (выше которого находится болевой порог) более чем в 30 тысяч раз интенсивнее самого тихого, который ухо может различить. Поэтому аналоговый звуковой сигнал в студийном тракте преобразуется в цифровую форму в аналогово-цифровом преобразователе. При этом так называемом первичном кодировании используется первичное квантование отсчётов ЗС с разрешением ΔA = 16..24 бит/отсчёт при частоте дискретизации  fД  = 44,1 .. 96 кГц. В каналах студийного качества часто ΔA = 16 бит/отсчёт,  fД  = 48 кГц с полосой  частот кодируемого ЗС  ΔF = 20 .. 20000 Гц. Динамический диапазон такого цифрового канала должен быть не менее 54 дБ. Если  fД  = 48 кГц   и   ΔA = 16 бит/отсчёт, то скорость цифрового потока при передаче одного такого сигнала составит v = 48 * 16 = 768 кбит/с.

Рис. 3.12. Вариант формы звукового сигнала

Лекция-4. СЖАТИЕ СТАТИЧЕСКИХ ИЗОБРАЖЕНИЙ НА ОСНОВЕ ОРТОГОНАЛЬНЫХ ПРЕОБРАЗОВАНИЙ, ДКП, ВЕЙВЛЕТОВ И ФРАКТАЛОВ

4.1. Основные сведения об ортогональных преобразованиях

4.2. Сжатие изображений на основе ДКП

4.3. Сжатие изображений на основе ВП

4.4. Сжатие изображений на основе Фракталов

 

4.1. ОСНОВНЫЕ СВЕДЕНИЯ ОБ ОРТОГОНАЛЬНЫХ ПРЕОБРАЗОВАНИЯХ

Стандарт CCIR-601 для цифрового телевидения устанавливает что размер передаваемого TV изображения без компрессии в течении одной секунды составляет  165 Мбит, в минуту - 9.900 Мбит (9.9 Гбит), в час - 594 Гбит. Для 24 часовой записи потребуется 14.256 Гбит (14,3 Тбит). Что соответствует примерно двадцати двум  жестким дискам емкостью 80Гб. Если, к примеру, использовать модем со скоростью передачи 56 Кбит/с, то ему потребуется около 8 лет для передачи одного дня видео съемки. Для ускорения передачи и более рационального использования дискового пространства цифровое видео, передаваемое по сетям Ethernet, всегда сжимается. Именно поэтому, очень важно правильно выбрать формат сжатия. Компрессия статического или видео изображения может быть осуществлено двумя основными методами – с потерей или без потери качества.

   Сжатие без потерь данных - полученное после декомпрессии изображение будет в точности (побитно) совпадать с оригиналом. Примером такого сжатия может служить формат GIF для статической графики и GIF89a для видео. Поскольку коэффициент сжатия, при использовании таких видов компрессии, небольшой, их использование достаточно затруднительно, т.к. в сетевых видео решениях передаются большие объемы видео информации.

   Сжатие с потерями качества - потери качества могут наблюдаться в случае, если в процессе сжатия информация была утеряна. Однако с точки зрения человеческого восприятия сжатием с потерями следует считать лишь то сжатие, при котором на глаз можно отличить результат сжатия от оригинала. Таким образом, несмотря на то, что два изображения – оригинал и результат сжатия с использованием того или иного компрессора — побитно могут не совпадать, разница между ними будет совсем незаметной. Основная идея – значительно увеличить коэффициент сжатия, пренебрегнув незначительными деталями, не заметными для человеческого глаза.

Одним из возможных и наиболее распространенных способов обработки, сжатия изображений и видеопоследовательностей является применение ортогональных преобразований, в основе которых могут быть положены различные принципы. Наиболее часто используются методы линейных ортогональных преобразований.

Сравнительный анализ известных методов сжатия показал, что для обработки изображений целесообразно вначале выполнить преобразование изображения, а затем осуществить сжатие преобразованных данных без потерь информации.

Наиболее подходящими для этой цели оказались следующие преобразования:

– преобразование Уолша-Адамара;

– преобразование Карунена-Лоэва;

– дискретное косинус-преобразование.

Достоинством преобразования Адамара является простота реализации и низкая вычислительная сложность. Рассмотренное разложение будет давать хорошие результаты для кусочно-постоянных функций, т.к. базисные функции преобразования Адамара выделяют постоянные составляющие сигнала. В результате для кусочно-постоянных сигналов большая часть коэффициентов разложения преобразования Адамара будет близка к нулю, что приведет к уменьшению энтропии преобразованных данных и увеличению коэффициента сжатия. Однако на практике такие сигналы встречаются достаточно редко.

Базисные векторы для преобразования Карунена-Лоэва вычисляются с помощью пикселей исходного изображения, то есть, они зависят от исходных данных. В конкретном методе сжатия эти векторы следует записывать в сжатый файл для использования декодером. Кроме того, не известен быстрый метод вычисления этих векторов. Все эти факты делают метод KLT сугубо теоретическим – без реальных приложений.

4.2. ДИСКРЕТНО- КОСИНУСНОЕ ПРЕОБРАЗОВАНИЕ (ДКП)

ДКП является хорошо изученным и весьма эффективным преобразованием., предложенное В. Ченом в 1981 году и использующееся в форматах JPEG, MJPEG, MPEG-1, MPEG-2, MPEG-4. По сути, этот метод сходен с двумерным дискретным преобразованием Фурье и отличается от него только используемыми базисными функциями. Достоинством ДКП является быстрая сходимость ряда, что обеспечивает меньшую погрешность ошибки преобразования

Прямое и обратное ДКП описываются уравнениями (1, 2)

  (1)

    (2)

где v - горизонтальная координата графического блока, u - вертикальная, x - вертикальная координата внутри блока, а y - горизонтальная координата внутри блока, C(u), C(v) = 1/Ö2 для u,v = 0 и С(u), С(v) = 1 в противном случае.

.

Данный метод предусматривает разбиение кадра на блоки по 64 (8х8) отсчета, называемые сигнальными матрицами. После чего сигнальные матрицы преобразуются в матрицы частотных коэффициентов такого же размера, которые можно рассматривать, как двумерный спектр изображения в горизонтальном и вертикальном направлениях, Причем, в такой матрице коэффициенты в левом верхнем углу соответствуют низкочастотной составляющей изображения, а в правом нижнем — высокочастотной.

Рис.4.1. Исходное изображение

 

Рис.4.2. Сигнальная матрица  яркостей пикселей исходного изображения

 

Рис.4.3. Матрица коэффициентов после прямого ДКП

 

Особенность спектра ДКП в том, что основная энергия частотных составляющих этого спектра концентрируется в небольшой области около нулевых частот. Амплитуда высокочастотных составляющих или мала, или просто равна нулю, поэтому передаче подлежат только те частотные коэффициенты матрицы ДКП, величины которых превышают принятые пороговые значения. Коэффициенты ниже порогового значения считаются нулевыми и не передаются для чего производится их зигзагообразное считывание.

 

Рис.4.4. Зигзагообразное сканирование матрицы коэффициентов

 

Если при передачи отбрасываются только нулевые коэффициенты, то получается сжатие без потерь качества, т.е. после декомпрессии изображение не отличается от оригинала, как показано на рис.4. Однако при этом коэффициент сжатия не высок и в среднем составляет 10-20 раз  в зависимости от детальности изображения.

 

 

Рис.4.5. Сигнальная матрица  яркостей пикселей восстановленного изображения

 

Рис. 4.6. Восстановленное изображение

 

Основной недостаток преобразований Фурье и ДКП в, частности, заключается в том, что их гармонические базисные функции плохо работают с непериодическими сигналами, в результате чего безвозвратно теряется часть полезной информации, как показано на следующих рис.4.7. При этом При больших коэффициентах сжатия нарушается плавность изменения яркости на границах блоков, что приводит к возникновению искажений в виде блочного эффекта снижающего разборчивость и качество восстановленного изображения, как показано на рис.4.7.

Рис.4.7. Исходное и восстановленное изображение при сжатие 100 раз

 

 

4.3. ВЕЙВЛЕТЫ

В настоящее время получают все большее распространение альтернативные методы сжатия изображения и звука на основе Вейвлет-преобразований, введенных Гроссманом и Морле в середине 80-х годов   Основной недостаток преобразований Фурье и ДКП в, частности, заключается в том, что их гармонические базисные функции плохо работают с непериодическими сигналами, в результате чего безвозвратно теряется часть полезной информации. Вейвлет-преобразование основано на представлении некоторой функции композицией функций-вейвлетов (где вейвлет это всплеск или маленькая волна. В настоящее время существует много вейвлет функций, наиболее распространенные представлены на рис. 4.8.

Рис.4.8.Некоторые наиболее распространенные вейвлеты.

 

При этом изображения, как правило, обрабатываются целиком, что уменьшает их четкость и устраняет блочный эффект. Поэтому алгоритмы сжатия типа Wavelet обеспечивают более высокие по сравнению с алгоритмом JPEG коэффициенты сжатия, как показано на. Рис4.9..

.

Рис. 4.9. Сравнительное качество изображений на основе JPEG и JPEG-2000 при Ксж=100

 

В отличие от Фурье вейвлеты- базисные функции конечны, во-вторых, вместо амплитудного масштабирования базисных функций в вейвлет-преобразовании используется временная "растяжка", в-третьих, простая линейная операция композиции (сложение) в Фурье-преобразовании заменяется временными сдвигами и временным масштабированием. Таким образом, вейвлет-преобразование может рассматриваться как импульсная реакция базового фильтра которая сводится к совокупности процессов фильтрации и децимации (рис.4.10).

Рис.4.10. Обобщенная структурная схема вейвлет-преобразования

 

Преобразуемый сигнал подвергается фильтрации с помощью фильтров нижних и верхних частот, которые делят диапазон частот исходного сигнала на две половины поэтому  НЧ, и ВЧ компоненты сигнала, полученные при фильтрации, имеют в два раза более узкую полосу частотных составляющих.

Для вейвлет-фильтров вводят еще один элемент – прореживание, которое пропускает на выход каждое второе число, поступающее на его вход, поскольку каждое второе значение несет избыточную информацию так как если мы знаем значение сигнала в какой-то момент времени и его производную, то значение сигнала в следующий момент времени, можно вычислить.

Поскольку изображение представляет собой двумерный сигнал, то каждый шаг декомпозиции вейвлет-преобразования  выполняется в два этапа: сначала обрабатываются строки, потом столбцы или наоборот.

Для простейшего вейвлета Хаара, имеющего всего 2 коэффициента, действие НЧ фильтра можно представить усреднением двух соседних точек, а ВЧ – численным дифференцированием. При этом формируется два массива A[N/2] и D[N/2], элементы которых определяются, как:

, , где .

Коэффициенты A[N/2] при этом называют аппроксимацией сигнала, а D[N/2] – детализацией. Очевидно, что имея массивы A и D, можно восстановить исходный сигнал S[N], как показываю на рис.4.11, где численные значения A[ ] и D[ ] представлены яркостями точек.

Рис.4.11. Принцип Вейвлет- декомпозиции

 

            Принцип вейвлет преобразования можно рассмотреть на примере обработки следующего изображения.

 

            Рис 4.12 Исходное   изображение                        Вейвлет-декомпозиция по строкам

 

 

 На первом этапе производится вейвлет-декомпозиция изображения по строкам.,  Здесь, в левой половине представлены коэффициенты аппроксимации каждой строки, в правой  – коэффициенты детализации. Далее производится аналогичная операция со столбцами изображения.

Рис. 4.13 Вейвлет-декомпозиция по столбцам                        двойная декомпозиция

 

 Таким образом, в левом верхнем углу получается аппроксимация исходного изображения (т.е. исходная картинка, уменьшенная в два раза). В правом верхнем углу – дифференциальная картинка по оси X. В левом нижнем углу – дифференциальная картинка по оси Y. И, наконец, в правом нижнем углу – дважды дифференцированное изображение сначала по X, затем по Y. При этом  коэффициенты детализации практически все равны нулю (нулевым значениям соответствует серый цвет со значением 128) или находятся вблизи него.

Дальнейшая декомпозиция выполняется над уменьшенным изображением то есть над аппроксимацией исходного изображения. На втором шаге декомпозиции получим изображение представленное на  Теоретически продолжать декомпозицию в принципе можно до тех пор, пока не получим единственный пиксель в левом верхнем углу, яркость которого будет соответствовать усредненной яркости всего изображения, однако на практике это приведет к большой потере качества изображения.

Как видно из приведенных рисунков вейвлет-сжатие обеспечивает лучшее качество изображения при одинаковом коэффициенте сжатия. Таким образом, преимущество метода Вейвлет сжатия перед ДКП состоит в том, что Вейвлет преобразует полное изображение, а не его отдельные фрагменты, и позволяет получить качественное изображение при больших (до 100) коэффициентах сжатия. Однако, при высокой степени компрессии и Вейвлет сжатие может давать искажения, имеющие вид ряби вблизи резких границ, но такие артефакты в среднем меньше бросаются в глаза наблюдателю, чем «мозаика», создаваемая MPEG           

 

 

 

 

4.4. ФРАКТАЛЫ

 

Помимо ДКП широкое распространение получают методы сжатия на основе вейвлет преобразований в которых изображения не разбиваются на блоки, а обрабатываются целиком. При этом получается выигрыш по качеству или сжатию примерно в 1.5-2 раза, однако при сжатии более чем в 50-100 раз изображения теряют четкость.

Для получения высоких коэффициентов сжатия порядка 200-2000 могут использоваться фрактальные методы сжатия изображений. Основой метода является рассмотрение естественных объектов как «подобных самим себе» и подчиняющихся требованиям фрактальной геометрии, в которой сложные структуры выглядят точно так же, как и простые структуры, т.е. повторяют их. Задачей кодирования является отыскание таких совпадений в цифровых изображениях и описание таких фракталов с дальнейшим эффективным повторением.

            Понятия  фракталов были предложены математиком Б. Мандельбротом в 1975 г. для обозначения нерегулярных, но самоподобных структур, для которых некоторые свойства  реального изображения, сохраняются при масштабировании пространства. При фрактальном кодировании используется свойство подобия деталей разного масштаба, встречающиеся в реальных изображениях.

Фрактальная архивация основана на том, что изображение представляется в более компактной форме с помощью коэффициентов системы итерационных функций (IFS) (итерация - повторное применение математической операции в серии аналогичных операций, производимых для получения результата). Система итерирующих функций – это совокупность сжимающих аффинных преобразований, которые включают в себя масштабирование, поворот и параллельный перенос .

Из курса линейной алгебры известна формула вычисления новых координат X',Y' при аффинных преобразованиях:

X` = x * а - y * b + e
Y` = x * c + y * d + f

Здесь

a = cos (alpha) * scale_x,
b = sin (alpha) * scale_x,
c = sin (alpha) * scale_y,
d = cos (alpha) * scale_y,
e = move_x,
f = move_y,

где

scale_x - масштабирование по оси X;
scale_y - масштабирование по оси Y;
alpha - угол поворота;
move_x - параллельный перенос по оси X;
move_y - параллельный перенос по оси Y.

 Полученные коэффициенты a, b, c, d, e, f для каждого элемента разбиения и составят требуемую систему итерирующих функций.

Афинное преобразование считается сжимающим, если коэффициент масштабирования меньше единицы.

 При непосредственном наблюдении фрактальное кодирование заключается  в сопоставлении отдельных частей  предварительно разбитого  на блоки исходного изображения с блоками, вырезанными из этого же изображения. В процессе сравнения с эталонными блоками допускаются следующие преобразования блоков кодируемого изображения : поворот на 90 , 180 или  270 градусов и зеркальные отражения . То есть IFS представляет собой набор трехмерных преобразований, переводящих одно изображение в другое. Преобразованию подвергаются точки в трехмерном пространстве (х-координата, у-_координата, яркость).

Таким образом, фрактальное сжатие изображений основано на гипотезе, согласно которой в любом изображении можно обнаружить локальное самоподобие различных его частей. Существующие алгоритмы фрактального сжатия, как правило, придерживаются следующей схемы кодирования: кодируемое изображение разбивается на множество не перекрывающихся блоков (ранговых областей), для каждого из которых, в пределах этого же изображения, ищется блок большего размера (домен), пиксели которого путём некоторого преобразования, задаваемого несколькими коэффициентами, переводились бы в пиксели ранговой области. При этом для поиска оптимального соответствия ранговых областей и доменов необходим полный перебор вариантов, что влечёт за собой значительные вычислительные затраты. Из преобразований, переводящих домены в ранговые области, формируется отображение, переводящее изображение в код. При этом кодом изображения будут являться местоположение и размеры ранговых областей, а также коэффициенты преобразований, описывающих самоподобие внутри изображения. Количество бит, необходимых для описания кода, будет существенно меньше количества бит, необходимых для описания исходного изображения. Коэффициентом сжатия называется отношение битового представления изображения к битовому представлению кода. В известных фрактальных методах сжатия изображений значение этого коэффициента может достигать 100 и более при приемлемом качестве синтезированного восстановленного изображения.

 

Рис.4.14. Наиболее характерное изображение для фрактального сжатия

 

Задача построения оптимального кода изображения при использовании фрактального сжатия, как уже было сказано, требует значительных вычислительных затрат и может составлять несколько часов, что не позволяет использовать данные методы компрессии в системах реального времени.

Одним из путей ускорения вычислений заключается в использовании различных алгоритмов сужения поиска или вообще отказе от него. При этом изображение разбивается на неперекрывающиеся квадратные блоки, каждый из которых разбит на четыре одинаковых квадратных подблока. Каждый блок является доменом для своих подблоков, а подблоки - ранговыми областями. Задача кодирования изображения в этом случае сводится к проверке подобия ранговой области домену, содержащему эту область. В случае отсутствия подобия соответствующий подблок снова разбивается на четыре квадратных “подподблока” и сам становится доменом для своих подблоков. При этом процесс разбиений продолжается до тех пор, пока очередной подблок не будет состоять из одного пиксела.

На рис.4.15 представлены результаты фрактального сжатия одним из вариантов кодека взятого с Интернета.

Рис.4.15. Результаты обработки технических рисунков

 

Как видно из проведенных исследований фрактальные кодеки обладают очень низким быстродействием 10-1000 мин, что не позволяет использовать их при обработке изображений в реальном масштабе времени. Причем качество восстановленных изображений исследуемых кодеков сильно зависит от коэффициента сжатия, сложности сюжета и получается достаточно низким. Поэтому для сжатия ТВ изображений с высоким качеством наиболее перспективным является объектно-ориентированный механизм, относящийся к классу фрактального сжатия,


Лекция-5. СЖАТИЕ ТВ ИЗОБРАЖЕНИЙ  С УСТРАНЕНИЕМ МЕЖКАДРОВОЙ ИЗБЫТОЧНОСТИ

5.1.  Дифференциальная ИКМ с адаптивным предсказанием.

5.2.  Методы компенсации движения

5.3.  Объектно-ориентированное сжатее

 

5.1. ДИФФЕРЕНЦИАЛЬНАЯ ИКМ С АДАПТИВНЫМ ПРЕДСКАЗАНИЕМ

 

При передачи информации по каналам связи Для увеличения эффективности работы кодеков сжатия аудио-видео информации часто применяют различные виды ее кодирования. Например, можно от значения уровня яркости одного отсчета отнять уровень яркости последующего и передавать по каналу связи их разность. При этом, если соседние отсчеты по уровню равны или близки, то их разность будет мала или равна 0 и соответственно для ее передачи требуется меньше бит в кодовых словах. Такой подход называется «Импульсно-кодовой модуляцией». Однако на практике часто используются методы не простого  кодирования разности отсчетов, а кодирования с предсказанием. Они могут использоваться как в чистом виде, так и в сочетании с другими видами кодирования.

Принцип предсказания достаточно прост (рис 5.1.)

 Модель адаптивного предсказания

Рис.5.1.  Модель предсказания

 

На передающей стороне устанавливается предсказатель, которой по полученной в предыдущий момент информации вырабатывает (предсказывает) последующую информацию. При поступлении информации от передатчика предсказанное и истинное значение сравниваются (вычитаются) и передается ошибка предсказания. В предельном случае, когда предсказание полностью верно, сигнал "ошибка предсказания" равен нулю. На приемном конце устанавливается предсказатель, который, по предыдущей информации, вырабатывает последовательные значения сигнала — те же самые, что и предсказатель передатчика, — и корректирует (суммирует) с поступившим сигналом ошибки. Передача разностного сигнала в большинстве случаев требует меньшего числа разрядов. Выигрыш от кодирования на практике легче оценивать по мощности. Поэтому выигрыш от кодирования измеряют отношением мощности кодирования при равномерном и при разностном квантовании.

Поскольку информация в канале достаточно предсказуема — кодирование с адаптивным предсказанием снижает объем передаваемой по каналу информации.

Наглядным примером предсказания может служить служба передачи поздравительных посланий, которая существовала на телеграфах всего мира.

Если вечером 31 декабря передатчику поступает первоначальное сообщение "Поздравляю…..", то предсказатель с вероятностью 95-98% вырабатывает в следующий момент слова "С Новым годом". Если последующая информация совпадает с предсказанной информацией, то в канал передается сигнал ошибки, равный нулю. На приемном конце будут выработаны те же слова, и при сложении предсказанной информации и значения ошибки пользователю будет передан полный текст. При этом в канале была передана минимальная информация. Если же последующие слова будут "С днем рождения", то соответственно передается код ошибки. На телеграфе все виды поздравлений были перенумерованы и занесены в кодовую книгу. Поэтому передавался код, который обозначал поздравление с Днем рождения. Таким образом устранялась смысловая избыточность. Конечно, пока устранение смысловой избыточности — дело будущего, но этот пример указывает на возможное направление работ.

Кодирование с адаптивным предсказанием в настоящее время используется для предсказания формы сигнала, которая имеет достаточно прогнозируемые участки. Так как всякое кодирование с предсказанием основывается обычно на аппроксимации формы сигнала, т.е. кодирование кривой с помощью значений этой кривой в отдельных точках и восстановление ее формы на приемном конце по этим отдельным отсчетам.

В математике известны несколько видов аппроксимации, например как аппроксимация Лагранжа, линейные, показательные, и т.п. аппроксимации. В технике кодирования видео и звука применяется линейная аппроксимация.

При этом способе каждая кривая может быть представлена с произвольной точностью суммой величин предыдущих отсчетов, умноженных на коэффициенты, которые называются коэффициентами предсказания.

Такая аппроксимация отображается с помощью уравнения

y(T)=\sum\limits_{t=1}^{p}a_ty(T-t)

где y(T)— отсчет на выходе в следующий момент времени;

a_{t}— коэффициент аппроксимации;

p— порядок модели.

Чем выше порядок модели, тем точнее она приближается к истинному значению формы кривой.

Предсказание — это генерация последующей формы кривой на основании уравнения отрезков (новых коэффициентов a_{t}). Она может также основываться на различных принципах.

 

Дифференциальная импульсно­ кодовая модуляция (ДИКМ)

Самый простой принцип предсказания — это принцип "сохранения предыдущего значения". В этом случае предполагается, что значение предыдущего отсчета сохранится и в последующий момент времени. Так, человек, одеваясь перед выходом из дома, предполагает, что температура на улице сохранится хотя бы на один час. Опровержение этого факта возможно только установлением их разности. Действительно, эксперименты показывают, что в большинстве случаев разница между предыдущим и последующим значением меньше, чем само значение отсчета. Поэтому для большей части кривой сигнал ошибки может быть не таким значительным.

Приведенная выше формула тогда модифицируется в

y(T) = a_{t} y(T - 1)

a_{t} = 1

Тогда в линию передается разность между текущим и предыдущим значениями:

\Delta y = y (T) – (T –).

Обратим внимание, что y(T)— аппроксимированное значение сигнала. Восстановление сигнала на приеме заключается в том, что к предыдущему значению сигнала прибавляется разность

y (T) = y (T – 1) +\Delta .

На рис. 5. 2. показана одна из реализаций этого метода.

Рис.5.2.  Реализация ДИКМ

 

В данном случае предсказатель представляет собой простой регистр, который накапливает значение предыдущего отсчета. В линию передается разностный сигнал.

Для определения следующего разностного отсчета сигнал восстанавливается в сумматоре сложением этого отсчета с предыдущим значением сигнала (см. на рисунке сумм. 2).

Разновидностью этого метода является аппроксимирование на основании нескольких отсчетов. Такой способ позволяет увеличить точность аппроксимации, но требует наличия памяти для накопления нескольких отсчетов. При этом последующее значение y(T)определяется по приведенной выше формуле. При предсказании, основанном на предположении "сохранение предыдущего значения", коэффициенты не меняются, поэтому на приемном конце они те же самые — это позволяет не передавать их по линии, а передать только разность аппроксимированного сигнала.

Эффективность такого кодирования, как было указано выше, оценивается выигрышем от кодирования и измеряется в отношении мощности сигнала, представленного кодами равномерного квантования, и мощностью сигналов кодирования разностного сигнала.

При ДИКМ такой выигрыш достигает 5 дБ. Однако это значение изменяется от характера сигнала и система с разностным предсказанием становится неэффективной при большом значении разностного сигнала.

Это может произойти из-за возрастания разности соседних отсчетов или из-за нарушения системы предсказания.

Первое увеличивает количество передаваемой информации. Второе является существенным недостатком систем с предсказанием.

Потеря или искажения значения разностных отсчетов приводят к полному искажению восстанавливаемых значений, поскольку ошибка в предыдущем значении сигнала вызывает катастрофические ошибки в определении последующих. Поэтому все это требует передачи на приемный конец величины выигрыша (для контроля качества принимаемого сигнала) и периодического обновления значений коэффициентов (при устойчивом изменении характера сигнала).

Это усложняет реализацию, которая показана на рис.5.3. (кодер) и рис. 5.4. (декодер).

На этих рисунках показаны кодер и декодер, которые способны передавать три блока информации:

1.   кодированный разностный сигнал;

2.   значение выигрыша;

3.   коэффициенты аппроксимации.

Такая схема позволяет периодически проверять качество разностного кодирования и подстраивать коэффициенты аппроксимации. В этом смысле она адаптируема.

Кодер с адаптивным предсказанием
Рис.5.3.  Кодер с адаптивным предсказанием

 

Декодер с адаптивным предсказанием


Рис. 5.4.  Декодер с адаптивным предсказанием

Также имеются методы, основанные на вероятностных методах прогнозирования. При этом последовательные n отсчетов рассматриваются как n случайных величин, и определяется вероятность их совместного появления — p(x_{1}, …, x_{k}). Прогнозирование всего отсчета основано на определении математического ожидания

\{M\{y(T)\}=\sum\limits_{y=1}^{p}p_ky(T-t)

где p_{k}— вероятность появления k- го отсчета.

При этом в линию передается разность между реальной величиной в момент tи его прогнозируемым значением (математическим ожиданием).

{Y(T) — M{y(T)}.

Вероятностные формулы предсказания могут иметь самый различный характер: от формул, предполагающих наличие вероятностного закона, например, распределение вероятности по формуле Пуассона, до линейно­кусочной аппроксимации значений вероятности. Во всех случаях на сторону приема передаются параметры формулы прогнозирования. Моментами передачи, кроме момента инсталляции, могут быть моменты изменения на основе новой статистики (адаптация параметров). Вероятностные методы связаны с нахождением оптимального соотношения сбора отсчетов (чем больше, тем лучше) и своевременной реакцией на изменения (чем больше собранных отсчетов, тем выше инерционность).

Из всего сказанного можно сделать вывод, что эффективность кодирования с адаптивным предсказанием зависит от сложности адаптивной логики и числа отсчетов для следующего предсказания. Но существует оптимальная точка эффективности предсказания между большим накоплением статистики (осторожная тактика) и быстротой реакции на изменение (тактика быстрого реагирования).

Вычисление коэффициентов предсказания не обязательно проводить в реальном масштабе времени. Их расчет производится на основании математических моделей, исходя из выигрыша от предсказания. Отношение мощности входного сигнала к мощности разностного сигнала называется выигрышем предсказания.

 

 

 

5.2. МЕТОДЫ КОМПЕНСАЦИИ ДВИЖЕНИЯ

 

Для уменьшения скорости цифрового потока основное сжатие видео информации осуществляется за счет устранения межкадровой избыточности, поскольку информация в соседних кадрах мало изменяется. Как показано на рис 5.5..

 

Рис. 5.5. Изображение 2 смежных

Для этой цели можно использовать вычисление межкадровой разницы  или межкадровой разницы на основе линейного предсказания (рис.5.6)

 

 

Рис.5.6. Изображение межкадровой разницы (А) и линейного предсказания (B)

 

 

 

Результаты эффективности работы кодека с использованием вычисления  межкадровой разницы видеоклипа представлены на рис 5.6. и сведены в таблицу1.

Таблица 1

Результаты сжатия кодеком   MJPEG-2000 сюжета из 10 кадров форматом 510х265 (406 кБ)

                № кадра

Размер

 кадра Кбайт

0

1

2

3

4

5

6

7

8

9

S

Сжатие без потерь

33.1

33.6

34.5

34.3

34.7

35.3

34.8

34.6

34.6

31.1

340.6

Сжатие –20

20.4

20.4

20.4

20.4

20.2

20.2

20.4

20.2

20.4

20.4

203.4

Сжатие –50

8.1

8.1

8.1

8.1

8.1

8.1

8.1

8.1

8.1

8.1

81

Сжатие –100

4.2.

4.2

4.2.

4.2

4.1

4.2.

4.2.

4.2

4.1

4.1

41.7

 

 

 

Результаты сжатия  1 сюжета с межкадровой разницей методом вычитания

                № кадра

Размер

 кадра Кбайт

0

0-1

1-2

2-3

3-4

4-5

5-6

6-7

7-8

8-9

S

Сжатие без потерь

33.1

11

10

9.6

9.4

9.4

10

10.4

10.5

10.5

123.9

Сжатие –20 / 2 раза

20.4

11.1

10.1

9.6

9.5

9.5

10.1

10.5

10.6

10.5

111.9

Сжатие –50

8.1

8.0

8.0

8.1

8.0

8.0

8.1

8.1

8.0

8.0

80.4

Сжатие –100

4.2

4.2

4.1

4.2

4.2

4.2

4.2

4.2

4.2

4.2

41.9

 

Как видно из результатов проведенных исследований применение межкадровой разницы дает положительный эффект только при небольших коэффициентах сжатия (10-20 раз), а затем эффективность падает до 1, поскольку в межкадровой разнице преобладают высокочастотные компоненты, которые сжимаются плохо. Поэтому при сжатии изображений обычно используются методы компенсации движения.

 

 

Алгоритмы компенсации движения можно разбить на классы по ряду признаков и свойств, но наибольший интерес представляет классификация по способу работы (или архитектуре) и по назначению (области применения алгоритма).

Классификация по способу работы алгоритма учитывает следующие его архитектурные особенности:

·                 В терминах каких сущностей производится компенсация движения? Это могут быть объекты, блоки либо фиксированного размера, либо с подразбиением, а также кадр целиком.

·                 В каком классе ищется движение? Чаще всего используется класс параллельных сдвигов с ограниченным максимальным сдвигом, хотя он может быть расширен операциями поворота и масштабирования. Здесь же учитывается точность алгоритма - она может составлять 1 пиксел, ½ пиксела, ¼ пиксела и т.д.

·                 Минимум по какой мере принимается за искомое решение? Наиболее распространенные меры - это сумма абсолютных разностей (Sum of Absolute Differences, SAD)

и сумма квадратов разностей (Sum of Squared Differences, SSD):

,

где суммирование производится по всем точкам объекта компенсации (например, прямоугольного блока), FOrig и FComp- яркость (luminance) исходного и скомпенсированного кадра, соответственно, в точке p=(x,y)T.

При классификации по назначению обычно выделяют две большие группы: алгоритмы, использующиеся при сжатии видео, и алгоритмы, использующиеся при обработке видео (деинтерлейсинге, изменении частоты кадров). Разница между ними в том, что алгоритмы первой группы ориентированы на уменьшение попиксельной разницы исходного и скомпенсированного кадров, так как именно от него зависит степень сжатия видео. При этом для них, как правило, не важно, правильно ли определено движение, или просто найдены близкие по яркости области на двух последовательных кадрах. Для алгоритмов же второй группы истинность найденных параметров движения очень важна, поскольку на основе этих параметров производится настройка других параметров алгоритма.

Следует отметить, что классификация по назначению довольно условна: некоторые алгоритмы сложно отнести к той или иной группе, поскольку они с одинаковым успехом могут применяться в обоих случаях. Поэтому в дальнейшем на этой классификации внимание заостряться не будет, если только это не потребуется для повышения степени понимания материала.

Рассмотрим подробнее несколько устоявшихся и наиболее популярных подходов к компенсации движения.

 

Пиксельный метод

Один из наиболее ранних методов компенсации движения. Компенсация производится отдельно для каждого пиксела кадра, рассматриваемый класс преобразований - линейные сдвиги. Минимизируется обычно суммарная ошибка компенсации для всего кадра (Displaced Frame Difference, DFD):

,

где F(p,n) - яркость кадра номер n в точке p=(x,y)T, d(p)=(dx,dy)T - вектор смещения для точки (x,y)T. Результатом алгоритма для текущего кадра с номером n будет такой набор векторов d0 для каждой точки кадра p=(x,y)T, что

по всевозможным наборам d.

Подход основан на предположении, что яркость можно приблизить линейной функцией от положения точки в кадре. Это предположение оправданно только для сравнительно небольшой окрестности этой точки, что существенно снижает область применимости данного метода и позволяет ему корректно оценивать лишь небольшие сдвиги.

Это ограничение можно преодолеть, оценивая не сам вектор сдвига, а его разность с некоторым вектором предсказания, который с большой вероятностью расположен ближе к искомому вектору, чем нулевой. В общем случае, когда движение может составлять десятки пикселов, вектор сдвига ищется с помощью итерационного алгоритма - на каждом шаге происходит уточнение найденного на предыдущем шаге значения:

,

где i - номер итерации, update(p) - вектор уточнения, небольшой по величине. В качестве начального приближения можно взять вектор сдвига для этой же точки, найденный при обработке предыдущего кадра.

Этот метод имеет ряд серьезных недостатков, вследствие чего в настоящее время он представляет чисто теоретический интерес и практически нигде не используется. Основные его недостатки - высокая сложность (движение оценивается для каждого пиксела в отдельности), низкая точность (в силу несостоятельности основного предположения метода) и большой объем метаинформации, описывающей движение (для каждого пиксела задается вектор смещения в виде пары целых чисел).

 

Сопоставление блоков

Этот метод, точнее, класс методов, является логическим следствием предыдущего, устраняющим большую часть его недостатков, так как единицей компенсации в нем принят прямоугольный блок (обычно квадрат 16x16 пикселей или меньшего размера). Движение также ищется в классе линейных смещений, поэтому описывается такое движение двумерным вектором смещения для каждого блока.

Основное предположение метода - за время, проходящее между двумя последовательными кадрами, объекты в сцене и их местоположение изменяются незначительно. Тогда в окрестности любой точки кадра это изменение с достаточно высокой степенью точности можно приблизить параллельным переносом этой окрестности на некоторый вектор. На самом деле, подавляющее большинство обычных видеопоследовательностей удовлетворяют этому ограничению, за исключением участков резкой смены сцены, то есть характер движения объектов можно считать почти всюду непрерывным.

Итак, принцип работы метода следующий (рис. 5.7):

  1. Текущий кадр разбивается на непересекающиеся блоки одного размера B(x,y).
  2. Для каждого блока B(x,y) в небольшой окрестности ищется наиболее <похожий> на него блок BPrev(x+u,y+v) в предыдущем кадре. <Похожесть> определяется выбранной метрикой, обычно SAD или SSD.
  3. Вектор d=(u,v)T, на котором достигается минимум выбранной функции ошибки, считается вектором смещения для данного блока.

Рис.5.7. Схема работы алгоритма сопоставления блоков

 

 

В качестве функции ошибки компенсации чаще всего используется мера SAD для скомпенсированного блока:

,

так как её вычисление проще реализуется на некоторых архитектурах процессоров.

Различные модификации этого подхода различаются тем, каким образом находится минимум функции ошибки компенсации во всей области .

 

Полный перебор

Наилучшего качества приближения, то есть минимальной ошибки компенсации, может гарантировать полный перебор всех возможных значений векторов смещения из допустимой области с подсчётом ошибки компенсации для них и выбор того вектора, на котором достигается минимум ошибки. Этот подход считается эталонным, и сравнение с ним является неотъемлемой частью любой работы, посвященной разработке нового алгоритма компенсации движения. Однако практическое его применение в потребительских продуктах не представляется возможным ввиду слишком большой вычислительной сложности. Например, если требуется искать вектора движения в области +32 пиксела по каждому измерению для каждого блока размером 16x16, то SAD придется вычислить 64*64=4096 раз, в то время как каждое вычисление SAD требует 256 операций взятия модуля и 255 операций сложения.

Существуют способы ускорения полного перебора, позволяющие существенно сократить число операций за счет оптимизации вычисления самой функции ошибки [5] либо за счет вычисления некоторых оценок сверху для этой функции, что позволяет сократить количество векторов, для которых вычисляется функция ошибки [6]. Но количество операций на один пиксел размера кадра по прежнему слишком велико для работы алгоритма в реальном времени. Желательно иметь метод, позволяющий добиться близких результатов, но существенно меньшими затратами.

 

Перебор по шаблону

Предположим, что функция строго монотонно сходится к своему минимуму в области . Тогда проверкой всего нескольких точек в этой области можно локализовать этот минимум. Алгоритм, по которому эти точки выбираются, называется шаблоном.

Минимальное число проверок обеспечивает ортогональный шаблон, сокращающий за каждый шаг, состоящий из двух проверок, область поиска вдвое (рис.5.8).

Рис.5.8. Ортогональный шаблон

Но, поскольку функция ошибки компенсации почти никогда не бывает монотонной, а обычно имеет множество локальных экстремумов, затрудняющих поиск глобального экстремума, часто является целесообразным использовать другие шаблоны, на каждом шаге проверяющие более чем две точки. Это уменьшает вероятность найти локальный минимум вместо глобального. Наиболее популярными являются прямоугольный и восьмиточечный шаблоны (рис5.9), причем последний может иметь фиксированный размер на протяжении всех шагов либо уменьшаться вдвое на каждом шаге подобно рассмотренному ранее ортогональному шаблону. Последний вариант обычно называют трехшаговым поиском (Three Step Search, TSS), поскольку изначально этот шаблон применялся для области поиска +7 пикселов и находил минимум за три шага (с размером шаблона 4, 2 и 1 пиксел).

 

Рис5.9. Виды шаблонов

 

Методы, основанные на шаблонах, демонстрируют неплохую скорость работы, однако часто находят локальный минимум вместо глобального. Как преимущество можно отметить то, что поиск вектора движения для каждого отдельного блока не зависит от результатов поиска в соседних блоках и в предыдущем кадре, что делает метод более эффективным при очень интенсивном и сложном движении, чем рассмотренный ниже рекурсивный метод.

 

Трехмерный рекурсивный поиск

В этом методе проверяемое подмножество области поиска формируется для каждого блока отдельно на основе результатов поиска для соседних, уже обработанных блоков, и блоков предыдущего кадра. Основная идея состоит в том, чтобы использовать гладкость поля векторов движения для сокращения времени поиска (согласно наблюдениям, поле векторов является достаточно гладким как в пространстве, так и во времени, за исключением разрывов, возникающих на границах объектов, движущихся не одинаково, и ситуации смены общего плана). Поэтому в большинстве случаев для нахождения глобального минимума во всей области поиска бывает достаточно проверить вектора смещения для нескольких соседних блоков и уточнить их в небольшой окрестности.

Если записать формально, получим, что множество кандидатов на проверку (Candidate Set, CS) для блока с координатами p=(x,y)T кадра с номером n описывается следующим образом:

,

где M, N - размеры блока по горизонтали и вертикали, соответственно, d(p,n) - вектор смещения для блока с координатами p=(x,y)T в кадре с номером n. Вектора v1(p) и v2(p) - это так называемые вектора обновления: случайные вектора из небольшой окрестности нулевого вектора. Основной смысл их использования - избежать насильственного сглаживания поля векторов, обеспечить возможность его вариации.

Графически формирование множества CS выглядит следующим образом (см. рис. 5.10).

Рис.5.10. Формирование множества кандидатов

Данный метод является самым быстрым из рассматриваемых, и при слабом движении показывает неплохой результат, однако в большинстве случаев накладываемое ограничение на гладкость поля векторов оказывается слишком сильным. Поэтому  был предложен улучшенный трехмерный рекурсивный метод, использующий больше проверок при уточнении предсказанного вектора, а именно вектор, найденный с помощью немного измененной базовой версии алгоритма, уточняется затем в окрестности +1 пиксел.

Изменение базовой версии заключается в том, что случайные вектора обновления v1(p) и v2(p) теперь не используются: вместо одного из них используется нулевой вектор, вместо второго - вектор однопиксельного уточнения, найденный на второй стадии алгоритма для предыдущего блока в текущем кадре:

,

взятый с коэффициентом >0. Этот коэффициент определяет, насколько быстро алгоритм реагирует на градиентное изменение векторного поля в пространстве.

Метод носит название Enhanced 3D-RS. Вследствие своей простоты и высокой эффективности он является привлекательным для аппаратной реализации, хотя качество компенсации не всегда бывает удовлетворительным, особенно в сложных случаях.

 

Метод параметрических моделей

Предположим, что все изменение в кадре вызвано только движением камеры. Тогда это движение можно описать моделью с четырьмя параметрами:

.

Параметры p1(n) и p2(n) описывают параллельное перемещение камеры, в то время как p3(n) и p4(n) описывают вращение и приближение/удаление.

Можно легко обобщить этот метод на общий случай, когда в кадре есть множество независимо движущихся объектов: после разбиения кадра на блоки данная модель может быть применена для каждого из блоков кадра. На самом деле наиболее эффективным является совмещение параметрического подхода с каким-либо блочным методом, например с Enhanced 3D-RS, когда такой параметрический вектор добавляется в качестве дополнительного кандидата в его множество кандидатов .

 

Объектный подход

 

Для обеспечения больших коэффициентов сжатия телевизионных изображений в настоящее время широкое распространение начинают получать методы, основанные на сложных алгоритмах обработки изображений с распознаванием объектов сцены. Однако, распознавание образов представляет весьма сложную задачу, требующую больших затрат времени и вычислительных ресурсов и в настоящее время еще недостаточно изучена, поэтому для снижения затрат на разработку кодека, используется объектно – ориентированный подход для более точного определения границ объектов при компенсации движения. При этом объектно-ориентированное представление ТВ изображений может быть построено на алгоритмах сегментации и выделении контуров, где осуществляется разбиение изображения на составные части, которые имеют смысловую суть. При сегментации выделяется на изображении области с примерно одинаковыми свойствами внутри – текстурами, и посылается по каналам лишь их описание, что значительно увеличивает степень сжатия видео потока.   

Однако, применение сложных дифференциальных операторов для селекции объектов на сложном, неоднородном фоне требует обработки больших объемов видеоинформации, что резко снижает быстродействие таких алгоритмов, причем не всегда можно однозначно определить понятия объект-фон, как показано на на рис. 5.11

 

Рис.5.11. Изображение с неоднородной структурой

 

Как видно данное изображение имеет сильно неоднородную структуру, причем яркость отдельных фрагментом левого мальчика выше, ниже или  примерно равна окружающему фону. При  обработке такого изображения возникает большое число  многосязанных контуров по которым произвести селекцию объекта, как единого целого достаточно трудно. Поэтому на начальном этапе исследования эффективности применения объектно-ориентированного подхода для сжатия изображений в вейвлет кодеках было решено использовать изображения с искусственными движущимися яркими объектами неизменной формы на неподвижном фоне.  В этом случае селекция объектов сцены легко осуществляется простыми алгоритмами по их яркостным признакам.

Обобщенная структурная схема алгоритма обработки изображений в данном случае может иметь вид, приведенный на рис. 5.12.

Рис.5.12. Структурная схема объектно-ориентированного вейвлет видеокодека

 

 

После загрузки изображения в буфер кадровой памяти оно поступает в анализатор типа кадров, где определяется его принадлежность к опорному или промежуточному кадру, которые вставляются при резкой смене сюжетов изображения, или через 10-20 промежуточных кадров для надежной работы декодера. Если анализатор определяет принадлежность данного кадра к опорному, то он поступает на вейвлет кодек, в котором устраняется внутри кадровая избыточность и затем поступает на формирователь входного сигнала. Кроме того исходное изображение рис.13 поступает на преобразователь цветного изображения  RGB  в яркостное Y, так как на черно-белом изображении значительно проще производить селекцию объекта по яркостным признакам при помощи пороговой обработки. РИС-5.14

Рис.5.13. Исходное изображение с ярким объектом

 

Рис.5.14. Яркостное представление исходного изображения

 

 Так как основная информация об объекте сосредоточена в его контурной линии, то на следующим этапе полутоновое изображение после пороговой обработки преобразуется в бинарное (рис-5.15). При этом если значение яркости пикселя меньше порога, то его значение устанавливается равным «0», если превышает порог, то – «12 Таким образом формируется бинарное изображение имеющее только два значения яркости – черная и белая.

Использование бинарного преобразования позволяет простым и быстродействующим алгоритмом выделить контур объекта без разрывов его линии, толщиной в 1 пиксель (рис.5.16).

 

Рис.5.15. Бинарное представление изображения

 

 

Рис.5.16. Контурное представление изображения

 

Следующим этапом обработки изображения является селекция объекта, которая заключается в поиске белых точек контуров объектов на черном фоне. При обнаружении на сканируемом фоне пикселей с ненулевой яркостью, принадлежащих контурной линии неизвестного объекта, начинается процесс обхода контура с прослеживанием  связей его точек и занесением координат каждого пикселя в буфер контура объекта. Одновременно с этим  производится подсчет величины периметра контурной линии для фильтрации малоразмерных объектов. Если найденный  контур по периметру меньше пороговой величины, то такой контур игнорируется, поскольку выигрыш от его кодирования будет незначительный. Если же объект крупногабаритный, то вся область исходного изображения внутри выделенного контура копируется в буфер объекта для его сохранения с последующей вставкой в требуемое место кадра. Рис.5.17

Рис.5.17. Изображение выделенного объекта сцены

 

          При этом основные параметры, используемые при селекции объектов, к которым относятся значения установленных порогов, число найденных объектов и указатель типа передаваемого кадра, передаются в заголовке опорного кадра для правильной работы декодера.

          Обработку опорного кадра декодер после его декомпрессии проделывает весь вышеописанной процесс обработки изображения с фиксацией найденных объектов в своем буфере.

При поступлении следующего кадра с постоянным фоном и неизменной формой объекта анализатор кодера формирует признак «первого промежуточного кадра» (1). При этом обработка изображения осуществляется по выше приведенной схеме, но без участия вейвлет кодека.  В результате обработки определяются новые координаты местоположения выделенных объектов. И декодеру передается массив байтов, состоящий  из 1 байта идентификатора кадра, 1 байта числа найденных объектов и 2-х байтов новых координат на объект (вектор смещения). При необходимости также могут передаваться новые значения параметров кодирования.

          Таким образом, при сжатии искусственных изображений с неизменным фоном и подвижными объектами постоянной формы и цвета в предельном случае (1 объект) достаточно передавать всего 4 байта для описания кадра. После чего декодер вставляет объект, находящийся в его буфере в новое место, ориентируясь по переданным координатам его перемещения  (РИС-5.18). При этом, для устранения возникновения пустот на фоне за перемещенным объектом, недостающая информация сцены либо заполняется цветом окружающего объект фона, либо восстанавливается по опорным кадрам. Такой подход  позволяет получить очень большие коэффициенты сжатия. РИС-5.19

Рис.5.18. Принцип перемещения объекта

 

Рис.5.19. Перемещение объекта с восстановлением фона

 

 

 

 

Для проверки эффективности работы объектно-ориентированного подхода для вейвлет кодека было проанализировано сжатие 10 тестовых изображений при одинаковом качестве сжатия опорного кадра кодеками MPEG-2, MPEG-4, и объектно-ориентированного кодека. Результаты экспериментов представлены в следующей таблице 5.2., из которых следует, что объектный подход дает выигрыш в 2-3 раза по сравнению с традиционными кодеками

 

ТАБЛИЦА 5.2.

Результаты сжатия сюжета из 10 кадров форматом 720х576

             и тип кадра 

Размер

 кадра Кбайт

0

 

I

1

 

P

2

 

P

3

 

P

4

 

P

5

 

P

6

 

P

7

 

P

8

 

P

9

 

P

S

 

 

Без сжатия

1440

1440

1440

1440

1440

1440

1440

1440

1440

1440

11400

MPEG-2

Сжатие –28 / 75

50,81

1,45

1,27

1,32

3,02

20,16

48,1

12,44

7,1

7,33

153

MPEG-4

Сжатие–30 /  110

48

0.6

1.06

1.07

1.28

2.26

33,5

6.74

4.75

4.8

104

Объектно-вейвлет кодек

Сжатие –30/237

48

0.003

0.003

0.003

0.003

0.003

0.003

0.003

0.003

0.003

48,03

При 10 объектах

Сжатие –30/236

48

21

21

21

21

21

21

21

21

21

48,19

 


Лекция-6. СЖАТИЕ ЗВУКОВЫХ СИГНАЛОВ

 

6.1. Общие положения

6.2. Восприятие звука и психоакустика

6.3. Сжатие звуковых сигналов на основе психоакустических моделей слуха

 

 

6.1. Общие положения

 

Внедрение цифровых технологий сопровождается коренным изменением технической, технологической и информационной базы радиовещания (РВ) и телевидения (ТВ). Кроме повышения качества и количества передаваемой информации необходимо реально осуществить некоторые возможные проблемы,  с которыми столкнулось  мировое сообщество. 

           В мире  уже четко сформировались две разные платформы цифровых технологий для ТВ  и РВ:

1.      DAB (Digital Audio Broadcasting ), DRM (Digital Radio Mondiale), DVB (с наземной DVB-T, кабельной DVB- C, спутниковой DVB-S разновидностями)

2.      ATSC (Dolby AC -3).

 

Первая из них продвигается Европой, вторая – США. Здесь самое широкое применение находят:

    - алгоритмы компрессии цифровых аудиоданных, реализованные в стандартах группы MPEG (Moving Pictures Expert Group): MPEG-1 ISO/IEC 11172-3, MPEG -2 ISO/IEC 13818-3 и 13818-7 AAC, MPEG -4 ISO/IEC 14496-3, а также в стандарте ATSC (Advanced Television System Committee) Dolby AC -3 (A/52);

    - высокоэффективные методы модуляции: DQPSK (Differential Quadrature Phase  Shift Keying), QAM (Quadrature Amplitude Modulation), VSB-8T (Vestigial Side Band), OFDM (Orthogonal Frequency Division Multiplex) и COFDM (Coded Orthogonal Frequency Division Multiplex).

       Именно совместное использование алгоритмов компрессии цифровых аудиоданных и перечисленные выше методов модуляции лежит в основе столь быстрого продвижения цифровых систем вещания  на рынке информационных технологий.

      Основное внимание следует уделить системе DAB и введению цифрового стереофонического сопровождения в ТВ, ориентируясь, прежде всего на стандарты MPEG.

 

 

6.2 Восприятие звука и психоакустика

 

Изучением слуха и восприятия звука занимается наука под названием психоакустика.  В этой науке на основе субъективных наблюдений устанавливаются закономерности и взаимосвязи между объективными характеристиками звука и ощущениями его восприятия. Эти взаимосвязи лишь иногда описываются с помощью эмпирических формул, чаще представляются в виде графиков, а иногда они носят лишь описательный характер, например, для тембра звука.

       В системах связи и телевидения крайне ограничены возможности выбора свободных частотных диапазонов, поэтому остро стоит задача сжатие звука без снижения качества звучания. Поэтому в технике стали использовать субполосное кодирование, при котором цифровой звук разделяется на множество субполос шириной близкой к критической полосе слуха, а кодирование осуществляется в каждой отдельной полосе отдельно с выбором числа разрядов так, чтобы шумы квантования не ощущались на слух. Было разработано множество систем сжатия цифровых аудиоданных, основанных на различных моделях слухового восприятия, таких как MASCAM, MUSICAM, ATRAC, ASPEC и другие.

      Стереофонические звуковые системы строятся на основе знаний бинауральных особенностей слуха человека. Такая способность слуха позволяет воспринимать объемное звучание с локализацией источника звука в пространстве.

 

 

6.2.1.Устройство уха

Человеческое ухо в общем случае представляет собой довольно большой узкополосных резонаторов и в общем случае это нелинейная система, которая  и не может быть точно описана с помощью только линейных элементов (таких как фильтры и линии задержки). Как побочный результат нелинейности может проявляться, например, следующий эффект: при подаче двух тонов с частотой 1000 и 1200Hz может также быть слышен третий тон с частотой 800Hz. Однако в интересующем нас диапазоне амплитуд нелинейность достаточно слаба и ей обычно пренебрегают.

На рис.6.1 представлено строение уха, которое состоит из трех частей: ушной раковины (также называемой внешним ухом), среднего уха и внутреннего уха - улитки. Проходя через различные части уха звук претерпевает изменения.

Рис.6.1. Строение человеческого уха

 

 

 

6.2.2 Психоакустика

 

Все распространенные потоковые форматы сжатия звуковых сигналов основаны на схожем принципе работы, состоящем из трех основных этапов:

Первый этап — быстрое преобразование Фурье (FFT) исходного сигнала (фрейма, так как форматы потоковые). Кратко FFT — это процесс, представляющий исходный сигнал в виде суммы синусоид:

F(t)=A1sin(λ1t) + … + Ansin(λnt) + …

 

Теперь, вместо того чтобы хранить информацию о величине амплитуды волны в каждом сэмпле, остается запомнить только значения амплитуд (Ai) и длин волн (li). Обратное преобразование Фурье для реальных звуков без потери качества невозможно.

 

Второй этап — психоакустическая обработка, призванная вычистить из звукового потока информацию, не воспринимаемую человеческим ухом.

 

И, наконец, третий этап — применение математических алгоритмов сжатия. Во время этой операции происходят только численные преобразования, позволяющие представить информацию в более компактном виде. В MP3, например, используется чуть-чуть доработанный алгоритм Хаффмана. Алгоритм Хаффмана используется для снижения объема закодированных данных при кодировании относительно однородных сигналов. Таким путем объем закодированных данных можно снизить на 20%. Метод Хаффмана не приводит к потери качества звучания.

Рассмотрим свойства нашего слуха, благодаря которым мы можем слушать сжатую в несколько раз аудиоинформацию практически без искажений.

 

Диапазон слышимости. Человеческое ухо неидеально. Во младенчестве человек воспринимает звук в диапазоне от 15 Гц до 22 кГц; с возрастом рамки сужаются, и средний взрослый человек слышит звуки от 20 Гц до 18 кГц. Такая же ситуация и с восприятием амплитуды волны, то есть с громкостью. Динамический диапазон человеческого уха составляет 96 дБ то есть, самый громкий звук (выше которого находится болевой порог) более чем в 30 тысяч раз интенсивнее самого тихого, который ухо может различить. На этих свойствах слухового аппарата основана работа первого фильтра кодировщика. Он просто отрезает сигналы, выходящие за пределы указанных диапазонов частот и амплитуд. Однако уже эта операция уменьшает «живость» звука. Многие сверхнизкие и сверхвысокие звуки человек не может услышать, осознать, при этом все же ощущая их. Громкие сверхнизкие тона можно «услышать телом» по резонансу в костях и других частях тела. Тихие же вызывают бессознательное чувство беспокойства, напряженности. Безопасный инфразвук (10-15 Гц) применяется в кинотеатрах для пущего нагнетания атмосферы в фильмах ужасов.

Следующее важное свойство человеческого слуха — неравномерность распределения границы слышимости звука по частотам, представленная на рис.6.2. Наилучшим образом мы слышим частоты в районе 2-4 кГц в котором примерно находится речевой диапазон, а к низким и высоким частотам чувствительность уха снижается.

Рис.6.2. Граница слышимости в тишине.

 

Таким образом, чем дальше частота слышимого звука от 2-4 кГц, тем выше граница слышимого звука, тем больше информации можно вырезать без заметных потерь в качестве.

 

Чувствительность уха. К изменению каждого их двух параметров волны — частоты и амплитуды — у уха есть некоторый нижний порог чувствительности. Если изменение меньше этого порога, алгоритм его игнорирует. Например, для сигнала с частотой 1 кГц порог чувствительности составляет примерно 30 Гц. Если в кодируемом сигнале частота изменяется с 1000 Гц на 1020 Гц, сохранять это изменение не имеет смысла, так как человек все равно его не заметит. Таким образом, достаточно просто увеличить временные рамки звучания тона 1 кГц, а не кодировать два разных сигнала.

 

 Частотная маскировка. Любой слышимый тон изменяет восприятие остальной звуковой картины. При воспроизведении какого бы то ни было тона граница слышимости соседних с ним по частотам звуков изменяется. В этом случае воспроизводимый тон называется маскирующим, а граница слышимости окружающих его тонов поднимается тем выше, чем ближе их частота к частоте маскирующего сигнала. То есть, слушая низкий звук, значительно проще услышать высокий звук, нежели низкий другой частоты. Под воздействием тона частотой 1 кГц и интенсивностью 60 дБ измененная граница слышимости будет выглядеть примерно как на рис. 6.3.

Рис.6.3. Граница слышимости под воздействием тона частотой 1 кГц и интенсивностью 60 дБ.

 

Обычно в музыке одновременно присутствуют самые разнотоновые компоненты. Таким образом, маскирующих тонов может быть несколько. При использовании сразу нескольких маскирующих тонов (частотой 0,25, 1, 4, 8 кГц, как показано на рис.6.4.) граница слышимости остальных сигналов сильно поднимается.

Рис.6.4. Граница слышимости под воздействием сразу нескольких маскирующих тонов (частотой 0,25, 1, 4, 8 кГц).

 

На рис.6.4. видно, что наилучшим образом маскируются высокие частоты. Уже при воспроизведении 8-килогерцового маскирующего тона граница слышимости на 14 килогерцах поднимается. Алгоритмы компрессии этим активно пользуются — при сжатии качество высоких частот страдает обычно в первую очередь, что особенно хорошо проявляется на низких битрейтах (bitrateколичество бит, необходимых для кодирования 1 секунды звука).

 

Временная маскировка. Это явление похоже на частотную маскировку, но — как понятно из названия — здесь происходит маскировка во времени. В обычных условиях эффект от временной маскировки длится значительно меньше. После того как воспроизведение маскирующего тона резко прекращается, в течение короткого времени (около сотни миллисекунд, в зависимости от частоты и амплитуды сигнала) граница слышимости изменяется, причем нелинейно. На рис.6.5. представлен график, иллюстрирующий временную маскировку.

Рис.6. 5.  Временная маскировка.

 

Кроме того, существует такое явление, как предмаскировка — увеличение порога слышимости до появления маскирующего тона. Но так как эффект предмаскировки длится всего около 10 мс и сильно различается у разных людей, его использование на текущем этапе эволюции форматов нецелесообразно.

 В графиках частотной и временной маскировки одна из осей совпадает — и это не случайно. Совместив эти два графика, можно построить объемную диаграмму, иллюстрирующую общую эффективность компрессии звука, основанной на маскировке сигналов (рис. 6.6).

Рис.6.6. Общая эффективность компрессии звука.

 

 

Как видно, объем, заключенный под поверхностью слышимых звуков, составляет немалую часть от общего количества звуков. Удаление замаскированных тонов дает самое значимое сжатие, однако оно же и приводит к наиболее заметной потери качества.

    

Некоторые характерные особенности восприятия звука и речи

· Частотный спектр воспринимаемый человеком (примерно) от 20 Hz до 20 kHz, наибольшая чувствительность в диапазоне от 2 до 4 KHz.

· Динамический диапазон (от самых тихих воспринимаемых звуков до самых громких) около 96 dB (более чем 1 к 30000 по линейной шкале).

· Общеизвестно, что человек в состоянии различить изменение частоты на 0.3% на частоте порядка 1kHz.

· Если два сигнала различаются менее чем на 1дб по амплитуде - они трудноразличимы. Разрешение по амплитуде зависит от частоты и наибольшая чувствительность наблюдается в диапазоне от 2 до 4 KHz.

· Пространственное разрешение (способность к локализации источника звука) - до 1 градуса.

· Звуки различной частоты распространяются в воздухе с разной скоростью. В результате высокочастотная часть спектра от источника находящегося на удалении от слушателя несколько запаздывает.

· Человек не в состоянии заметить внезапное исчезновение высоких частот, если оно не превышает порядка 2ms.

· Некоторые исследования показывают, что человек в состоянии ощущать частоты выше 20kHz, но обычно с возрастом частотный диапазон сужается.

 

Речь

·       Частотный спектр, несущий информацию в человеческой речи: от 500Hz до 2 kHz

Низкие частоты -  гласные

Высокие частоты - согласные

·       Лучшее сжатие речи достигается с использованием параметрических кодеров (LPC, CELP, и пр.), пытающихся представить речь как набор параметров некоторой речевой модели. Кодеки общего назначения (MPEG и др.), как правило, дают худшее сжатие.

 

 

 

6.3.            КОМПРЕССИЯ ЦИФРОВЫХ АУДИОДАННЫХ.

 

Аналоговый ЗС в студийном тракте преобразуется в цифровую форму в аналогово-цифровом преобразователе (A / D АЦП, см. рис. 6.7.). При этом так называемом первичном кодировании используется первичное квантование отсчётов ЗС с разрешением ΔA = 16..24 бит/отсчёт при частоте дискретизации  fД  = 44,1 .. 96 кГц. В каналах студийного качества часто ΔA = 16 бит/отсчёт,  fД  = 48 кГц с полосой  частот кодируемого ЗС  ΔF = 20 .. 20000 Гц. Динамический диапазон такого цифрового канала должен быть не менее 54 дБ. Если  fД  = 48 кГц   и   ΔA = 16 бит/отсчёт, то скорость цифрового потока при передаче одного такого сигнала составит v = 48 * 16 = 768 кбит/с. Применение компрессии позволяет уменьшить эту скорость до 2 кбит/с (MPEG-4). Компрессия цифровых аудиоданных обычно выполняется в кодере источника (см. рис. 6.7), а восстановление сигнала происходит на приёмной стороне в декодере перед цифроаналоговым преобразователем (ЦАП).

Рис.6.7. Обобщенная схема передающей и приёмной частей цифровой системы передачи звуковых сигналов

 

Наиболее высокое качество звучания обеспечивают многоканальный формат 3/2 (левый, правый, центральный каналы, а также пространственные каналы слева и справа ) плюс канал сверхнизких частот (система 5.1), и система воспроизведения типа "трапеция", что принято, например, для телевидения высокой четкости (HDTV). Однако, при первичном цифровом представлении высококачественных звуковых сигналов суммарная скорость цифрового потока оказывается достаточно большой. Так, для формата 3/2 требуется канал с пропускной способностью, равной 3.840 МГбит/c.

Человек  со своими органами чувств в состоянии принимать огромные потоки информации. Но сознательно он способен обрабатывать лишь около 100 бит/с информации. Поэтому можно говорить о присущей аудиоданным избыточности. Значительной проблемой при цифровом представлении звукового сигнала (ЗС) является сокращение имеющейся в них статистической и психофизической избыточности. Это позволяет уменьшить скорость цифрового потока при кодировании ЗС до предельно возможной величины, при которой шумы, помехи и искажения остаются ещё незаметными на слух даже для высококвалифицированных экспертов. Особенно важную роль играет сокращение психофизической избыточности ЗС, основанное на учёте такого феномена, как маскировка и ряда динамических свойств слуха.

 

 

 

 

 

 

6.3.1.      Обобщённая схема аудио кодера

 

Все приведённые ниже алгоритмы строятся на общих принципах. Обобщенная структурная схема кодера с компрессией цифровых аудиоданных представлена на рис.6.8.

 

 

 

Рис.6.8. Обобщённая структурная схема кодера источника с компрессией цифровых аудиоданных

 

В блоке время-частотного анализа и сегментации исходного звукового сигнала ЗС S(n) разделяется на субполосные составляющие и сегментируется по времени. Субполосная составляющая – это вырезанная фильтром из ЗС полоса частот, при временном ограничении она называется субполосой или выборкой. Длина кодируемой выборки зависит от формы временной функции ЗС. При отсутствии резких выбросов по амплитуде используется так называемая длинная выборка, обеспечивающая высокое разрешение по частоте. В случае же резких изменений амплитуды сигнала длина кодируемой выборки резко уменьшается, что дает более высокое разрешение по времени. Решение об изменении длины кодируемой выборки принимает блок психоакустического анализа, вычисляя значение психоакустической энтропии сигнала. После сегментации субполосные сигналы квантуются и затем кодируются. В наиболее эффективных алгоритмах компрессии аудиоданных кодированию подвергаются не сами отсчеты ЗС, а соответствующие им коэффициенты модифицированного дискретного косинусного преобразования (МДКП). Обычно при компрессии цифровых аудиоданных используется так называемое энтропийное кодирование, при котором одновременно учитываются как свойства слуха человека, так и статистические характеристики ЗС. Однако основную роль при этом играют процедуры устранения психоакустической избыточности, основанные на учёте свойств слуха.

Учёт закономерностей слухового восприятия ЗС выполняется в психоакустической модели или, иначе говоря, в блоке психоакустического анализа. Здесь по специальной процедуре для каждого субполосного сигнала (выборки) рассчитывается допустимый уровень искажений (шумов) квантования, при котором они еще маскируются полезным сигналом данной субполосы. Именно этот блок в конечном счете определяет эффективность и качество кодера с компрессией цифровых данных. Чем совершеннее психоакустическая модель кодера, тем больше лишней информации будет удалено из потока и тем меньше пострадает слышимая часть. Разумеется, для более сильного сжатия приходится идти на компромиссы и жертвовать качеством, что, впрочем, может пройти незаметно для пользователя, ведь не все могут сходу отличить «MP3» файлы, кодированные с битрейтами 128 и 256 кбит/с.

Битрейт (bitrate)количество бит, необходимых для кодирования 1 секунды звука.

Блок динамического распределения бит в соответствии с требованиями психоакустической модели для каждой субполосы кодирования выделяет такое минимально возможное их количество, чтобы уровень искажений, вызванных квантованием, не превышал порог их слышимости.

Для обеспечения правильного декодирования сжатых сигналов кроме кодовых слов отсчетов ЗС или соответствующих им коэффициентов МДКП (основные аудио данные) к декодеру передается также и определённая дополнительная информация (данные дополнительной информации). После кодирования цифровые потоки основной и дополнительной информации форматируются. При этом наиболее важная её часть подвергается помехоустойчивому кодированию с помощью кода CRC (помехоустойчивое кодирование).

В настоящее время разработано достаточно много методов кодирования звуковых сигналов, основные характеристики наиболее распространенных методов представлены в таблице 2.1.

Таблица 2.1.

Классификация основных методов кодирования высококачественных звуковых сигналов

 с компрессией цифровых аудиоданных

 

Наиме-

нование

Алгорт-ма

 

Метод

Компрессии

Частота

дискре-

тизации,

кГц

Кол-во

каналов

пере-

дачи

Скорость

передачи

кбит/с

на канал

 

Величина

Компрес-

сии

 

 

Области

применения

 

ASPEC

 

 

Кодирование с

Преобразова-нием

 

 32, 44.1,

     48

 

    1, 2

 

  64…192

 

    1 : 6

 

          ISDN

 

ATRAC

Субполосное

кодирование с преобразова-нием

 

     44.1

 

      2

 

     256

 

    1 : 5

 

      MiniDisk

 

MASCAM

Субполосное

кодирование

 

      48

 

    1, 2

 

 128…256

 

    1 : 4

DAB (Digital Audio Broadcasting)

 

MUSICAM

Субполосное

кодирование

 

      48

 

    1, 2

 

128…256

 

    1 : 4

 

 DAB

 

MPEG-1,

Layer-1 и –2

 

Субполосное

кодирование

(MUSICAM)

 

 32, 44.1,

48, Layer-1 только

      48

 

 

    1, 2

 

  32…448

 (Layer-1)

  32…384

 (Layer-2)

 

    1 : 4

(Layer-1)

    1 : 6

(Layer-2)

DAB (Layer-2,

128…256 кбит/с),

DBS (Direct Broadcast Satellite,

Layer-2, 224 кбит/с), DCC (Digital Compact Cassete, Layer-1, 384 кбит/с)

 

MPEG-1,

Layer-3

Субполосное

кодирование с преобразова-нием

 

 32, 44.1,

      48

 

    1, 2

 

 32…320

 

    1 : 9

 

Internet-вещание

 

 

MPEG-2

Субполосное

кодирование

Субполосное

кодирование с преобразова-нием

 

16, 22 … ,

    48

 

 

  1-5, 1

 

 

 32…384

 

 

   <1 : 9

 

Многоканальное

стереофоническое

вещание

 

MPEG-2,

AAC

 

Субполосное

кодирование с преобразова-нием

 

16, 22 … ,

    48

 

    5, 1

 

 16…384

 

    1 : 15

 

Многоканальное

стереофоническое

вещание

 

 

MPEG-4

Субполосное

кодирование с преобразова-нием

Параметричес-кое кодиро-вание

 

16, 22 … ,

    48

 

  1-5, 1

 

   2…64

 

    1 : 22

 

Мультимедия

приложения

 

Dolby AC-3

 

Кодирование с преобразова-нием

 

     44.1

 

  1-5, 1

 

 32…384

 

    1 : 13

Кинематограф,

HDTV, спутни- ковое вещание

 

Гибридное

Кодирова-ние

 

Субполосное

кодирование с преобразова-нием

Параметричес-кое кодиро-вание

 

   

     44.1

 

 

 

    1, 2

 

 

  32…64

 

 

 1 : 15..20

 

Радиовещание,

Хранение

информации

                      

Как видно из приведенной таблицы, существует достаточно много разных методов сжатия имеющих свои достоинства и недостатки. Одни обеспечивают приемлемое качество звука, но малую степень сжатия, другие, хорошую степень сжатия, но  высокую сложность реализации алгоритма, сильно влияет на скорость компрессии и декомпрессии. Однако, несмотря на большое разнообразие форматов сжатия, все они, как правило, базируются либо быстром преобразовании Фурье, либо на модифицированном дискретно-косинусном преобразовании. Причем в силу относительно слабой корреляционной связи непосредственное сжатие звука слабо эффективно и обычно не превышает 4-6 раз. Поэтому для обеспечения больших коэффициентов сжатия применяю различные и довольно сложные психоакустические модели нашего звукового восприятия,  использующие сложный математический аппарат. При этом наилучшим сжатием в 22 раза из рассмотренных стандартов обладает MPEG-4.

 

 

 

 


Лекция-7. СТАНДАРТЫ СЖАТИЯ АУДИО-ВИДЕО ДАННЫХ.

 

7.1. Общие положения

7.2. JPEG, MJPEG

7.3. MPEG-1

7.4. MPEG-2

7.5. MPEG-4

7.1. Общие положения

 

Учитывая, что ТВ изображения представляют собой огромный массив данных, то для их передачи по каналам сотовой связи с хорошим качеством требуется скорость потока порядка 270 Мбит/с, что значительно превосходит возможности современных каналов передачи. Поэтому для согласования параметров сигналов и каналов передачи применяют различные способы кодирования изображений с целью сжатия исходных объемов видеоинформации за счет устранения их избыточности. В настоящее время для сжатия неподвижных изображений используется стандарт JPEG, JPEG-2000, а для подвижных изображений наибольшее распространение получили  форматы представления видео и аудио данных семейств MPEG при помощи которых можно значительно сократить передаваемый объем видеоинформации без заметной деградации изображения.

 

 

 

7.2. JPEG

 

JPEG – сокращение от Joint Photographic Experts Group (Объединенная Фотографическая Группа Экспертов) – качественный и очень популярный стандарт для статических изображений, который поддерживается практически всеми современными программами. Для просмотра JPEG файлов достаточно стандартных Web-браузеров, которые осуществляют их декомпрессию и отображение на мониторе.

При JPEG компрессии могут использоваться различные уровни сжатия, устанавливаемые пользователем,   которые определяют насколько изображение должно быть сжато. Выбранный уровень непосредственно связан с качеством картинки и размером файла.
    На степень сжатия (размер файла) помимо уровня сжатия непосредственно влияет и само изображение. Например, размер файла с изображением белой стены будет относительно невелик и иметь более высокую степень сжатия, в то время, размер файла, с тем же самым уровнем сжатия, отображающий сложную сцену с большим количеством деталей и цветовых переходов, будет иметь больший размер с более низкой степенью сжатия.

Спецификация JPEG определяет минимальные требования стандарта, которые должны поддерживаться всеми программами, использующими этот метод. JPEG основан на основе дискретнокосинусного преобразования блочной структуры изображения, предложенным В. Ченом в 1981 году. По сути, этот метод сходен с более известным двумерным дискретным преобразованием Фурье и отличается от него только используемыми базисными функциями. Достоинством ДКП по сравнению с другими аналогичными ортогональными преобразованиями (синусным, Фурье, Адамара, Хаара и др.) является быстрая сходимость ряда, что обеспечивает меньшую погрешность ошибки преобразования.

            Чтобы иметь дело только с действительными числами обычно используют разложение с помощью дискретно-косинусного преобразования (ДКП), определяемого соотношением:

,   (7.1)

где коэффициенты ДКП определяются по формулам:

,   , k = 1, 2, …, N-1,   (7.2)

Нахождение C(k) по x(n) называют прямым ДКП, а представление сигнала x(n) по C(k) – обратным ДКП.

Ядро преобразований при переходе от ДПФ к ДКП определяется как:

, где W = exp,   (4.10)

Формула (4.10) отражает взаимосвязь между ядрами ДПФ и ДКП. Аналитическое выражение для ортогонального ДКП, отражающее взаимосвязь между ДКП и ДПФ можно записать в виде:

,   ,   (7.3)

где k’Î {1, 2, …, N}, A(i) = 0, i Î {1, 2, …, N-1}.

После проведения соответствующих математических преобразований выражение для ортогонального преобразования упрощается:

,   , kÎ {1, 2, …, N-1},   (7.4)

что соответствует записи без дополнительного условия A(i) = 0, i Î {N, N+1, …, 2N-1}.

Соотношения (7.3) и (7.4) описывают два равноценных способа определения одномерных коэффициентов F(0) и F(k) ДКП. В соответствии с (7.3) спектральные коэффициенты одномерного ДКП порядка N найдем исходя из N спектральных коэффициентов ДПФ порядка 2N. Из основной формулы преобразования с ядром [Fk] (7.4) получаем выражение спектральной матрицы столбца вектора:

[F] = [Fk]×[A],   (7.5)

где [Fk], [A] – матрицы – столбцы векторов Fk, и A соответственно строки матрицы преобразования исходного сигнала

В силу своей природы методы сжатия на основе ДКП всегда кодируют с потерями, но способны обеспечить высокую степень сжатия при минимальных потерях данных. Процесс сжатия по схеме JPEG включает ряд этапов (рис.7.1):

- Преобразование изображения в оптимальное цветовое пространство.

- Субдискретизация компонентов цветности усреднением групп пикселей.

-Применение дискретных косинус-преобразований для уменьшения избыточности данных изображения.

- Квантование каждого блока коэффициентов DCT с применением весовых функций, оптимизированных с учетом визуального восприятия человеком.

- Кодирование результирующих коэффициентов (данных изображения) с применением алгоритма Хаффмена для удаления избыточности информации.

Рассмотрим вкратце особенности каждого из перечисленных этапов. При этом хотелось бы обратить внимание на то, что декодирование JPEG осуществляется в обратном порядке.

Рис. 7.1.   Структура  JPEG – преобразований

 

В принципе алгоритм JPEG способен кодировать изображения, основанные на любом типе цветового пространства. JPEG кодирует каждый компонент цветовой модели отдельно, что обеспечивает его полную независимость от любой модели цветового пространства (например, от RGB, HSI или CMYК).

В случае применения цветового пространства яркость/цветность, например такого, как YUV или YCbCr, достигается лучшая степень сжатия. Компонента Y представляет собой интенсивность, а U и V - цветность. Эта модель может быть переведена в RGB посредством преобразования без какой-либо коррекции насыщенности. Для полутоновых изображений (в градациях серого) используется только одна составляющая Y.

Преобразование цветовой модели RGB в модель Y Cb Cr осуществляется с помощью следующих соотношений:

Y = 0,299 R + 0,587 G + 0,114 B;

Cb = - 0,1687 R - 0,3313 G + 0.5 B + 128;

Cr = 0,5 R - 0,4187 G - 0,0813 B + 128.

Обратное преобразование модели Y Cb Cr в модель RGB осуществляется с помощью подобных соотношений:

                                                           R = Y + 1,402 (Cr-128);

                                                           G = Y - 0,34414 (Cb-128) - 0,71414 (Cr-128);

                                                           B = Y + 1,772 (Cb-128).

На экране компьютера мы практически никогда не видим реально полноцветных изображений реального мира. Это объясняется ограниченными возможностями по цифровому представлению в памяти ПЭВМ, искажениями при воспроизведении цвета монитором и видеокартой. В результате на мониторе ПЭВМ воспроизводятся, в зависимости от выбранного видеорежима, цвета наиболее близкие к реальным.

Большая часть визуальной информации, к которой наиболее чувствительны глаза человека, состоит из высокочастотных, полутоновых компонентов яркости (Y) цветового пространства YCbCr. Две других составляющих цветности (Сb и Сr) содержат высокочастотную цветовую информацию, к которой глаз человека менее чувствителен. Следовательно, определенная ее часть может быть отброшена и, тем самым, можно уменьшить количество учитываемых пикселей для каналов цветности. Практика показала, что уменьшение объема данных на 50% почти незаметно отражается на качестве большинства изображений. Уменьшение разрешения каналов цветности путем субдискретизации, или усреднения групп пикселей осуществляется компрессором JPEG.

Стандарт JPEG предлагает несколько различных вариантов определения коэффициентов дискретизации, или относительных размеров каналов субдискретизации. Канал яркости всегда остается с полным разрешением (дискретизация 1:1). Для обоих каналов цветности обычно производится субдискретизация 2 - в горизонтальном направлении и 1:1 или 2:1 — в вертикальном. При этом подразумевается, что цветности пикселов будет охватывать ту же область, что и блок 2х1 или 2х2 яркости пикселей. Согласно терминологии JPEG, эти процессы называются 2h1v - и 2h2v - дискретизацией соответственно.

Поскольку средства визуализации и представления информации являются цифровыми, в них изначально заложена определенная система квантования сигнала. В конечном итоге, уровень квантования определяется глубиной цвета, т. е. количеством кодовых комбинаций, которые используются для кодирования цвета. Этот процесс и называется квантованием цвета. Поскольку в квантованной матрице отсутствует значительная доля высокочастотной информации, имеющейся в исходной матрице, первая часто сжимается до половины своего первоначального размера или даже еще больше. Реальные фотографические изображения часто совсем невозможно сжать с помощью методов сжатия без потерь, поэтому 50%-ное сжатие признается достаточно хорошим.

После конвертации графических данных в цветовое пространство типа LAB, отбрасывается часть информации о цвете (в зависимости от конкретной реализации алгоритма).

Сегментация изображения. Сегментация  изображения применяется с целью деления его на два и более сегментов (подизображений). Это облегчает буферизацию данных изображения в памяти ПЭВМ, ускоряет их произвольную выборку с диска, и позволяет хранить изображения размером свыше 64х64 Кб.

На следующем этапе, в зависимости от выбранного уровня качества, отбрасывается определенная часть чисел, представляющих тонкие детали. Таким образом, чем выше уровень компрессии, тем больше данных отбрасывается и тем ниже качество изображения. Используя JPEG можно получить файл в 1-500 раз меньше, чем ВМР. Формат аппаратно независим, полностью поддерживается на РС и Macintosh.

Ключевым компонентом работы алгоритма является дискретное косинусное преобразование, работа которого подробно описана выше.

Заключительная стадия работы кодера JPEG - это собственно кодирование. Оно включает три действия над округленной матрицей дискретного косинусного преобразования, для того, чтобы повысить степень сжатия.

После завершения этого этапа поток данных JPEG готов к передаче по коммуникационным каналам или инкапсуляции в формат файла изображения.

Наряду с вышесказанным необходимо отметить, что графическая анимация, черно-белые иллюстрации, документы, а также типичная векторная графика, как правило, JPEG сжимаются плохо. В настоящее время JPEG стали использовать для сжатия видеоинформации, однако авторам не известны полученные результаты. Формат JPEG получил большое распространение в Web – публикациях для представления графических элементов Web – страницы, в тех случаях, когда требуется многоцветное качественное изображение.

Первые результаты в цифровой компрессии видео, также были получены на основе алгоритма сжатия ДКП и получил название MPEG.

 

 Основной принцип MPEG сжатия это сравнение двух последовательных образов и передача по сети только небольшого количества кадров (так называемые I-frame или ключевые кадры), содержащих полную информацию об изображении. Остальные кадры (промежуточные кадры, P-frame) содержат только отличия этого кадра от предыдущего.          Иногда применяют двунаправленные кадры (B-frame), информация в которых кодируется на основании предыдущего и последующего кадров, что позволяет дополнительно повысить степень сжатия видео. Во всех форматах MPEG используется метод компенсации движения.

Несмотря на большую сложность при кодировании/декодировании видео сигнала, MPEG сжатие позволяет значительно снизить (в разы) объемы передаваемой по сети информации по сравнению с MotionJPEG.

            Основа кодирования у группы алгоритмов MPEG общая. Основные идеи, применяемые в ходе сжатия видеоданных с ее помощью, следующие: 

    - устранение временной избыточности видео, учитывающее тот факт, что в пределах коротких интервалов времени большинство фрагментов сцены оказываются неподвижными или незначительно смещаются по полю.

    - устранение пространственной избыточности изображений путем подавления мелких деталей сцены, несущественных для визуального восприятия человеком.

    - использование более низкого цветового разрешения при yuv-предеставлении изображений (y — яркость, u и v — цветоразностные сигналы) — установлено, что глаз менее чувствителен к пространственным изменениям оттенков цвета по сравнению с изменениями яркости. 
    - повышение информационной плотности результирующего цифрового потока путем выбора оптимального математического кода для его описания (например, использование более коротких кодовых слов для наиболее часто повторяемых значений).

 

MJPEG

 

            Данный стандарт во многом схож с форматом JPEG, но в отличие от него MJPEG работает с потоковым видео помещая в выходной поток сжатый кадр в отдельности, например, при работе многокамерной системы видеонаблюдения как показано на рис.7.2., 7.3.

Видеомультиплексор

Рис.7.2. Многоканальная система видеонаблюдения

 

Рис. 7.3. Выходной видео поток на выходе мультиплексора с временным разделением каналов.

 

 

7.3. MPEG-1

            MPEG-1 был стандартизован и начал использоваться в 1993. Он был предназначен для записи синхронизированных видеоизображений (обычно в формате VHS с разрешением 358x288) и звукового сопровождения на CD-ROM.

В связи с жестким ограничением максимальной скорости цифрового потока, типовым видеоформатом для MPEG-1 явился Common Intermediate Format (CIF), содержащий 240 строк по 352 точки в строке при 30 кадрах в секунду, или 288 строк и 352 точки в строке - при 25 кадрах. Подобное изображение приблизительно соответствует качеству картинки бытовой видеозаписи формата VHS и имеет разрешение в четыре раза ниже стандартного изображения вещательного телевидения.

Для согласования размеров изображения со стандартным, алгоритм сжатия MPEG-1 предусматривает процедуру "прореживания" исходного телевизионного сигнала по вертикали и горизонтали, при которой исключается каждая вторая строка и каждый второй отсчет в оставшихся строках. При декомпрессии отброшенные значения восстанавливаются путем интерполяции.

Субъективная оценка качества ТВ изображения в зависимости от скорости передачи данных показывает, что стандарт MPEG-1 можно эффективно использовать при кодировании видеоданных до скорости 3,5 Мбит/с, т.к. в интервале скоростей от 1,5 до 3,5 Мбит/с увеличение скорости передачи видеоданных сопровождается адекватным улучшением качества ТВ изображения. Однако дальнейшее повышение скорости передачи уже не ведет к заметному улучшению качества.

MPEG-1 разрабатывался принципиально ориентированным на обработку последовательностей кадров и использование высокой избыточности информации (до 95% и более), содержащейся в реальных изображениях, разделенных малыми временными интервалами. Действительно, фон между смежными кадрами обычно меняется мало, а все действие связано со смещениями относительно небольших фрагментов изображения. По этой причине необходимость передачи полной информацию о кадре изображения возникает только при смене сюжета, а в остальное время можно ограничиваться выделением и передачей разностной информации, характеризующей направления и величины смещения элементов изображения, появление новых объектов или исчезновение старых. Причем такие различия могут выделяться как относительно предыдущих, так и относительно последующих кадров. Поэтому в алгоритме MPEG-1 используются кадры трех типов:

I (Intra) - "самостоятельных", играющих роль опорных и сохраняющих полный объем информации о структуре изображения;

P (Predicted) - "предсказываемых" и несущих информацию об изменениях в структуре изображения по сравнению с предыдущим кадром (типа I или P);

B (Bi-directional Interpolated) - "двухсторонней интерполяции", сохраняющих только самую существенную часть информации об отличиях от предыдущего и последующего изображений.

 

Рис.7.2. Порядок следования типов кадров в стандарте MPEG-1

 

Таким образом, метод сжатия MPEG-1 основан на том, что полностью записывается лишь один кадр из группы примерно в 10 кадров. Это опорный, или I-кадр..

 

Рис. 7.3. Обобщенный алгоритм сжатия опорных кадров

 

Данный метод предусматривает разбиение кадра на блоки по 64 (8х8) отсчета, называемые сигнальными матрицами. Суть метода в том, что в результате исходная сигнальная матрица преобразуется в матрицу частотных коэффициентов такого же размера. Она уже не имеет прямой геометрической связи с положением отсчетов сигнала в растре, а просто является удобной формой математической записи, в которой частотные коэффициенты дискретного косинусного преобразования можно рассматривать, как двумерный спектр изображения в горизонтальном и вертикальном направлениях.

 При этом в ТВ кадре создается 288/8 = 36 зоны по вертикали и 352/8 = 70 зон по горизонтали, что в общей сложности дает: 36 х 70 = 2520 блоков, подлежащих дискретно-косинусному преобразованию (ДКП) в реальном масштабе времени. В результате ДКП исходная сигнальная матрица 8 х 8 = 64 ТВ отсчетов преобразуется в матрицу частотных коэффициентов ДКП такого же размера 8 х 8 = 64.

Спектр ДКП имеет очень важную, с точки зрения компрессии видеоданных, особенность: основная энергия частотных составляющих этого спектра концентрируется в небольшой области около нулевых частот. Амплитуда высокочастотных составляющих или мала, или просто равна нулю, поэтому передаче подлежат только те частотные коэффициенты матрицы ДКП, величины которых превышают принятые пороговые значения. Коэффициенты ниже порогового значения считаются нулевыми.

Введение пороговой (нелинейной) обработки ведет к потерям информации и, соответственно, к снижению качества восстановленного в декодере ТВ изображения. Однако, при разумном выборе величины порога это ухудшение окажется практически незаметным или же допустимым.

Следует отметить, что при кодировании динамический интервал коэффициентов ДКП возрастает в 8 раз. Так, при уровневом кодировании видеосигнала 8 бит его динамический интервал 0 - 255 дискретных уровней. При этом динамический интервал коэффициентов спектра ДКП составит от 0 до 2040 и от -1020 до +1020 дискретных уровней для коэффициентов постоянной и переменных составляющих ДКП, соответственно.

Кодирование коэффициентов ДКП в таком широком динамическом интервале потребует в последующих узлах кодера перехода от 8 битового к 11-битовому коду. Чтобы избежать этого, после ДКП производится масштабирование (сжатие) динамического интервала сигналов коэффициентов ДКП за счет увеличения шага квантования в 8 раз. Эта операция сводится к делению полученных в матрице значений коэффициентов ДКП на 8. Результат деления затем округляется до ближайших целых значений уровней новой шкалы квантования. Так, например, если исходное значение коэффициента ДКП было 22, то после деления на 8 и округления до ближайшего целого значения (22/8 = 2.75) новое значение будет 3. При этом новый динамический интервал составит от -255 до +255 дискретных уровней. После выравнивания динамического диапазона коэффициенты ДКП подвергаются взвешенному квантованию для сокращения избыточности в высокочастотной области, поскольку  чувствительность глаз здесь наименьшая.

Точность кодирования зависит от шага квантования. Он выбирается разным для разных коэффициентов матрицы ДКП, его масштаб в процессе кодирования может меняться от 1 до 31. Коэффициент, соответствующий постоянной составляющей ТВ сигнала, кодируется с использованием 10 бит, потому что при более грубом квантовании соседние блоки начинают отличаться по яркости. На экране они проявляются в виде шахматной структуры.

Последний алгоритм сокращения избыточности связан с кодами переменной длительности. При этом те коэффициенты ДКП, которые повторяются наиболее часто, кодируются короткими кодовыми комбинациями, а редкие значения коэффициентов - более длинными.

 

Таким образом процесс кодирования изображения в MPEG-1 начинается с создания исходного (Intra) кадра, формируемого с применением только внутрикадрового сжатия по технологии JPEG (ДКП).   

Предсказываемые P-кадры могли бы формироваться просто за счет вычисления их прямой разности относительно предыдущего кадра. Однако такая технология малоэффективна в случаях, например, плавного смещения всего изображения - разностная информация оказывается практически равной объему кадра. В этих условиях значительно лучшие результаты дает использованный в MPEG-1 метод оценки перемещений. Для его реализации кадр изображения делится на блоки размером 16х16 пикселей и каждому блоку предыдущего кадра в новом кадре ищется наиболее соответствующий блок, и вычисляются величины векторов смещения для всех блоков. Далее предсказания каждого блока, полученные из предшествующего кадра с помощью соответствующих им векторов смещения, сравниваются с фактическими блоками. Выявленные разности изображений (ошибка предсказания) вместе со значениями векторов смещения и служат информацией для построения предсказываемого кадра, что оказывается значительно экономней передачи содержимого самих блоков.

 Алгоритмы кодирования В-кадров двухсторонней интерполяции зависят от характера картинки. В MPEG-1 предусмотрено четыре способа их кодирования:

1- самый простой, - компенсация движения и предсказание вперед по предшествующему I или Р-кадру.

2- при появлении в кодируемом В-кадре новых объектов применяется предсказание назад по ближайшему последующему I или Р-кадру вместе с компенсацией движения.

3- алгоритм предусматривает компенсацию движения и двунаправленное предсказание по предшествующему и последующему I или Р-кадрам.

4- алгоритм основан на внутрикадровом предсказании без компенсации движения (он обычно используется при резкой смене плана или высоких скоростях движения отдельных фрагментов картинки).

    Алгоритм последующей компрессии разностных P и B-кадров также аналогичен технологии JPEG, но при этом для кадров различных типов достигается разный уровень компрессии. Меньше всего сжимаются I-кадры. Типичный P-кадр составляет по размеру примерно третью часть от I, а B - восьмую.

    Полученные последовательности I, P и B-кадров далее объединяются в фиксированные по длине и структуре группы кадров - GOP (Group of Pictures). Каждая такая группа обязательно начинается с I-кадра и с определенной периодичностью содержит P-кадры. Ее структуру описывают как M/N, где M - общее число кадров в группе, а N - интервал между P-кадрами.

Итоговый поток данных в значительной степени определяется составом GOP и в зависимости от назначения и требуемого качества изображения (видеофильм, мультимедиа и т. п.) используется различный состав GOP. Так, типичная для VideoCD IPB группа 15/3 имеет вид:

I B B P B B P B B P B B P B B.

 

 

 Здесь каждый B-кадр восстанавливается по окружающим его P-кадрам (в начале и конце группы - по I и Р), а каждый Р-кадр - по предыдущему Р или I-кадру. Как уже было сказано, I-кадры - являются полностью самостоятельными и служат опорными для P и B-кадров группы и восстанавливаются независимо от других. Достигаемое в такой GOP сжатие, по сравнению с последовательностью только из I-кадров (при одинаковом качестве изображения), составляет около четырех раз.

Программы для записи MPEG обычно позволяют пользователю регулировать состав группы.

Теоретически, MPEG позволяет описывать кадры большого размера, но в связи с ограничением числа макроблоков на картинку, реальный размер кадра составляет 352x240, 30 кадров/с или 352x288, 25 кадров/c, формат 4:2:0, 8 бит на точку.

MPEG позволяет значительно уменьшить суммарный поток данных. Естественно, потери качества при очень высоком уровне сжатия будут происходить вне зависимости от алгоритма обработки. Обычно программы сжатия позволяют заранее выбрать требуемое качество и показывают поток данных, которые Вы получите в этом случае.

Поскольку B-кадр нельзя декодировать, не приняв последующего P-кадра - кадры декодируются не в линейной последовательности.

 Тип кадров

I

B

B

P

B

B

P

B

B

I

Порядок следования

0

1

2

3

4

5

6

7

8

9

При декодировании

0

3

1

2

6

4

5

9

7

8

 

Стандарт MPEG-1 имеет врожденные недостатки. Например, однотонная стена всегда оказывалась нарисованной из рассыпающихся квадратиков, вылезали квадраты и на сценах, в которых много действий. Известны факты, что при издании VideoCD версий фильмов приходилось урезать в несколько раз многие сцены с большим количеством движений, взрывов и т.п. Таким образом, для телевещания он распространения вообще не получил и сейчас постепенно сдает свои позиции.

 Однако, у стандарта VideoCD есть и достоинства: чистота цвета всегда лучше чем на VHS, даже лицензионных и записанных на хорошей ленте; кроме того, не портится носитель (при аккуратном обращении), нет эффекта "запиливания" ленты и нет проблем с помятой или порвавшейся пленкой; качество звука (Dolby Stereo) вообще не идет в сравнение с качеством записи на ленте, особенно по уровню шума; опять же, меньшие габариты и более эстетичный вид...

 

 

 

    MPEG-2 был принят в качестве стандарта в 1994 для применения в высококачественном цифровом видео (DVD), цифровом телевидении высокого качества (HDTV), интерактивных носителях информации (ISM), цифровом радиовещательном видео (DBV) и кабельном телевидении (CATV). При разработке MPEG-2 усилия были сосредоточены на расширении техники сжатия MPEG-1, позволяющей обрабатывать большие изображения с более высоким качеством при более низкой степени сжатия и более высокой скорости побитной передачи данных. Так же, как и в MPEG-1 при кодировании используется дискретно-косинусное преобразование, но обрабатываемые блоки увеличены в 4 раза - 16х16 пикселей. Скорость передачи видео изображения ограничена 25 кадрами в секунду в стандарте PAL, SECAM и 30 в NTSC, так же, как в MPEG-1.