Глава 3

 

МУЛЬТИМЕДИЙНЫЕ ТЕХНОЛОГИИ

 

Мультимедиа — совокупность программно-аппаратных средств, реализующих интегрированную обработку и представле­ние информации в символьном, звуковом и зрительном виде. Мультимедиа представляет собой объединение несколь­ких способов подачи информации — текст, непод­вижные изображения (рисунки и фотографии), движущиеся изображения (мультипликация и видео) и звук (цифровой и MIDI) в интерактивный продукт.

Появление систем мультимедиа, безусловно, производит большие изменения в таких областях, как образование, компью­терный тренинг, во многих сферах профессиональной деятель­ности, науки, искусства, в компьютерных играх и т. д.

Поскольку технические средства мультимедиа и их характе­ристики более подробно описываются, например, в [25], здесь мы ограничимся рассмотрением некоторых методов представле­ния и обработки информации в таких системах.

 

3.1. Обработка аудиоинформации

 

В то время как даже в нецифровых технологиях фото и видео в принципе могут быть найдены элементы дискретности (в первом случае зерна пленки и фоточувствительные ячейки иконоскопа или матрица ПЗС, во втором — то же плюс разбиение изображения на строки), звуковой сигнал в своей основе является чисто аналоговым (если не вдаваться в такие тонкости,   как   магнитные   домены   в   чувствительном слое   при    записи    на   ленту).   Поэтому   целесообразно здесь сказать   несколько   слов   о   преобразовании   звука   (ана­лог – код и обратно).

 

Аналого-цифровое преобразование

 

Аналого-цифровое (дискретное) преобразование (АЦП) — (ADCanalog-to-digital conversion) — заключается в формиро­вании последовательностей n – разрядных двоичных слов, пред­ставляющих с заданной точностью аналоговые сигналы. В необ­ходимых случаях осуществляется обратное — дискретно-аналого­вое (цифроаналоговое преобразование — ЦАП, DAС).

Более чем тридцатилетнее развитие теории и практики ЭВМ приводит к вытеснению (в том числе и на бытовом уровне) ана­логовых устройств и сигналов цифровыми. Наиболее популяр­ным примером является несомненно аудиокомпакт-диск (digital audio CD) [25].

В этом случае звуковой сигнал (рис. 3.1) сначала преобразу­ется в дискретную аппроксимацию («многоуровневый ступенча­тый сигнал»), при этом происходит квантование по времени, ко­торое заключается в измерении (sampling) в дискретные момен­ты необходимого параметра аналогового сигнала.

При квантовании по амплитуде каждая ступенька представ­ляется последовательностью бинарных цифровых сигналов. Принятый в настоящее время стандарт CD использует так назы­ваемый «16-разрядный звук с частотой сканирования 44 кГц».

Для рис. 3.1 в переводе на нормальный язык это означает, что «длина ступеньки» (τ)

1/ 44 100   с, а «высота ступеньки» (δ) составляет 1/65 536  максимальной громкости сигнала (поскольку 216 = 65 536). При этом частотный диапазон воспроизведения со­ставляет 0—22 кГц, а динамический диапазон — 96 децибел (что

 

 

составляет совершенно недостижимую для магнитной или механической звукозаписи характеристику качества). Необходимо заметить что различные звуковые карты могут обеспечить 8- или 16-битные выборки, 8-битные карты позволяют закодировать 256 различных уровней дискретизации звукового сигнала, соот­ветственно 16-битные — 65 536 уровней.

Количество выборок в секунду, т. е. частота дискретизации аналогового звукового сигнала, также может принимать различ­ные значения: 5,5, 11, 22 и 44 кГц. Таким образом, качество зву­ка в дискретной форме может быть очень плохим (качество ра­диотрансляции) при 8 битах и 5,5 кГц и очень высоким (качест­во аудиоСD) при 16 битах и 44 кГц.

Поскольку компакт-диск — стереосистема, необходимо за­писывать два 16-разрядных слова каждый 44 100 раз в секунду. Это удается в пределах 176,4 Кбайт/с, 10,58 Мбайт/мин или 635 Мбайт/ч. Самый распространенный формат файла цифро­вой звукозаписи на ПК — WAV.

Для записи звука к звуковой плате может быть подключен микрофон или устройство воспроизведения звука (магнитофон, CD-плейер). Для воспроизведения звука к ее выходу могут быть подключены акустические колонки или наушники, а также любая акустическая система (магнитофон, музыкальный центр и т. д.).

Запись и редактирование аудиоматериалов требует большое пространство жесткого диска — при качестве компакт-диска зву­чание 10 мин потребует более чем 100 Мбайт. Чем быстрее диск и подсистема ввода-вывода, тем легче работать с такими боль­шими файлами. Современные жесткие диски и PCI-контроллеры способны к поддержке передачи не менее 4 Мбайт/с. Необ­ходимы гарантии, чтобы не было никаких прерываний в аудио-­потоке. Многие НЖМД делают прерывание, чтобы выполнить тепловую перекалибровку, которое может привести к короткой, но нежелательной паузе в звуке. Некоторые дисководы AV спе­циально проектируются без тепловой перекалибровки, таким об­разом устраняя этот эффект.

 

Звуковые платы

 

Звуковая плата ПК содержит несколько аппаратных систем, связанных с производством и сбором аудиоданных, две основные e аудиоподсистемы, предназначенные для цифрового «аудио-захвата», синтеза и воспроизведения музыки (рис. 3.2). Истори­чески подсистема синтеза и воспроизведения музыки генерирует звуковые волны одним из двух способов:                                      

•  через внутренний синтезатор (например, ЧМ-синтезатор);

•  проигрывая оцифрованный (sampled) звук.  

Секция цифровой звукозаписи звуковой платы состоит из пары 16-разрядных преобразователей — ЦАП и АЦП и содержит программируемый генератор частоты выборки, синхронизирую­щий преобразователи и управляемый от ЦП. Компьютер переда­ет оцифрованные звуковые данные к преобразователям или об­ратно. Частота преобразования обычно кратна (или составляет часть от) 44,1 кГц.

Большинство плат использует один или более каналов пря­мого доступа к памяти, некоторые платы также обеспечивают прямое цифровое подключение S/PDIF (или SPDIF). Кабель пе­редачи SPDIF (Sony/Philips Digital InterFace — Цифровой Ин­терфейс Sony/Philips) может быть оформлен в двух видах: коак­сиальный и оптический. Входы и выходы коаксиального SPDIF выполнены на разъемах типа RCA. Оптический SPDIF исполь­зует для передачи данных оптический кабель, входы и выходы которого выполнены на разъемах типа Toslink.

Генератор звука, установленный на плате, использует про­цессор цифровых сигналов (Digital Signal ProcessorDSP), ко­торый проигрывает требуемые музыкальные ноты, объединяя их считывание из различных областей звуковой таблицы с различ­ными скоростями, чтобы получить требуемую высоту тона. Мак­симальное количество доступных нот связано с мощностью DSP-процессора и называется полифонией платы.

DSP-процессоры используют сложные алгоритмы, чтобы создать эффекты наподобие реверберации, хорового звучания и запаздывания. Реверберация создает впечатление, что инстру­менты играют в больших концертных залах. Хор используется, чтобы создать впечатление, что несколько инструментов играют совместно, тогда как фактически есть только один. Добавление запаздывания к партии гитары, например, может дать эффект пространства и стереозвучания.

Частотная модуляция. Первой широко распространенной технологией, которая используется в звуковых платах, была час­тотная модуляция (ЧМ, Frequency ModulationFM), разрабо­танная в начале 1970-х гг. Дж. Чоунингом (Стэнфордский уни­верситет).

Синтез с использованием частотной модуляции (FM-synthesis) основывается на последовательном и параллельном подключении генераторов простых сигналов и их взаимомодуляции. Схема соединения генераторов и параметры каждого сигнала  (частота,  амплитуда  и  закон  их  изменения   во времени) определяют тембр звучания, а количество генераторов степень тонкости управления ими определяет предельное ко­личество синтезируемых тембров. Данный метод очень удобен с точки зрения дешевизны реализации, но при этом требует слож­ного программирования и тонкой настройки. Использовался в большинстве звуковых PC-карт в виде стандартных GM-устройств, а также активно популяризировался фирмой Yamaha и ее модельным рядом синтезаторов GX.

Каждый голос ЧМ-синтезатора требует минимум двух гене­раторов сигнала, обычно называемых «операторами». Различные конструкции ЧМ-синтезатора имеют различные степени управ­ления параметрами оператора. Сложные системы ЧМ могут ис­пользовать 4 или 6 операторов на каждый голос, и операторы могут иметь корректируемые параметры, которые позволяют на­строить скорости нарастания и угасания сигнала.

Yamaha была первой компанией, которая вложила капитал в исследования по теории Чоунинга, что привело к разработке ле­гендарного синтезатора DX7. Специалисты Yamaha скоро поня­ли, что смешивание более широкого диапазона несущих и моду­ляторов позволяет создать более сложные тембры, приводя к бо­лее реалистическим звучащим инструментам. Аппаратные средства их синтезатора OPL3 — фактический стандарт для иг­ровых плат, использует параметры, загруженные программным Драйвером, чтобы управлять каскадными генераторами ЧМ, ко­торые создают аналог акустических и электронных музыкальных

инструментов.

Хотя системы ЧМ были осуществлены в аналоговом испол­нении на ранних клавиатурных синтезаторах, в дальнейшем вы­полнение синтеза FM было сделано в цифровой форме. Методы синтеза FM очень полезны для того, чтобы создать выразительные новые звуки. Однако если цель синтезирующей системы состоит в том, чтобы воспроизвести звук некоторого существующего инструмента, это лучше делать в цифровой форме на основе выборок   сигналов,   как   при   синтезе   с   использованием звуковых таблиц (WaveTable Synthesis).

Табличный синтез (WaveTable synthesis или PCM-synthesis). Здесь используются выборки звуков реальных инструментов — небольших сэмплированных «кусочков» звуковой волны, определенный набор которых позволяет создать звучание инструмен­та, смоделировать интересные звуки. Активно используется в PPG, Waldorf, Korg DW-8000, Ensoniq ESQ-1 и ряде других син­тезаторов.

Выборка — цифровое представление формы звука, произве­денного инструментом. Платы, использующие ISA, обычно со­храняют выборки в ROM, хотя более новые PCl-изделия ис­пользуют основную системную оперативную память ПК, кото­рая загружается при запуске ОС (например, Windows) и может включить новые звуки.

В то время как все звуковые платы ЧМ звучат аналогично, платы звуковых таблиц значительно отличаются по качеству. Ка­чество инструментов определено несколькими факторами:

•  качество первоначальной записи;

• частота, на которой выборки были записаны;

•  количество выборок, использованных для каждого инстру­мента;

•  методы сжатия, использованные для сохранения выборки.

Большинство инструментальных выборок записаны в стан­дарте 16 бит и 44,1 кГц, но многие изготовители сжимают дан­ные так, чтобы больше выборок или инструментов можно было записать в ограниченный объем памяти. Однако сжатие часто приводит к потере динамического диапазона или качества.

Когда аудиокассета воспроизводится слишком быстро или слишком медленно, ее высота звучания меняется, и это справед­ливо также для цифровой звукозаписи. Проигрывание выборки на более высокой скорости, чем ее оригинал, приводит к более высокому воспроизводимому звуку, позволяя инструментам ис­полнять более чем несколько октав. Однако если некоторые тем­бры воспроизводятся быстро, они звучат слишком слабо и тон­ко; аналогично, когда выборка проигрывается слишком медлен­но, она звучит уныло и неестественно. Чтобы преодолеть эти эффекты, изготовители разбивают клавиатуру на несколько об­ластей и применяют различные выборки звуков инструментов в каждой из них.

Каждый инструмент звучит с различным тембром в зависи­мости от стиля игры. Например, при мягкой игре на фортепья­но, не слышен звук молотков, бьющих по струнам. При более интенсивной игре мало того, что этот звук становится более очевидным, но можно заметить также и изменения тона.

Для каждого инструмента должны быть записаны много выборок и их разновидностей, чтобы синтезатор точно воспроизвел соответствующий диапазон звука, а это неизбежно требует большего количества памяти. Типичная звуковая плата может содер­жать   до   700   инструментальных   выборок   в   пределах   ROM 4 Мбайт. Точное воспроизведение фортепьяно соло,  однако, требует от 6 до 10 Мбайт данных, вот почему нет никакого сравнения между синтезируемым и реальным звуком.

Обновление звуковой таблицы не всегда означает необходи­мость покупать новую звуковую плату. Большинство 16-разряд­ных звуковых плат имеет разъем, который может соединиться с дополнительной платой звуковой таблицы (daughterboard). Каче­ство звучания инструментов, которые такие платы обеспечива­ют, значительно отличается, и это обычно зависит от того, каков объем памяти расположен на плате. Большинство плат содержит между 1 и 4 Мбайт выборок, и предлагает целый ряд цифровых звуковых эффектов.

Другие методы звукового синтеза.

Аддитивный или суммирующий синтез (additive synthesis). Данный метод прекрасно иллюстрируют первые моде­ли от Hammond, которые были основаны на принципе построе­ния звучания реальных органов. В его основе лежит следующая идея — создание сложных гармонически насыщенных звуков из простых изменяющихся синусоидальных волн, различных по ам­плитуде и/или частоте.

Вычитающий синтез (subtractive synthesis). Данный ме­тод противоположен предыдущему. В качестве исходного берет­ся тембрально богатый, насыщенный гармониками звук, а потом в результате сложной фильтрации из него формируется опреде­ленный тембр с характерной тоновой окраской.

Direct Draw. В ряде синтезаторов используются осцилля­торы, генерирующие звуковые волны со стандартными формами (синусоида, прямоугольная, пилообразная и т. п.). В варианте Uirect Draw пользователь может самостоятельно рисовать любые Формы.

Гранулированный  синтез  (Granular synthesis). Явля­ется частным случаем таблично-волнового синтеза. Звук формируется из коротких сэмплированных фрагментов звуковой волны. Результате взаимодействия частоты их повторения и частотных составляющих сэмплированной звуковой формы получается тембрально сложный монотонный звук, который впоследствии можно обрабатывать методами вычитающего синтезирования. Одна из первых реализаций подобного была в программе Ross Bencina AudioMulch.

Сэмплинг (Sample playback). Данный метод базируется на использовании сэмплированных (записанных) инструментов и воспроизведении их в режиме обычного проигрывателя. Неболь­шие звуковые фрагменты, из которых складывается звучание инструмента, загружаются в память (ROM или RAM) и затем вос­производятся.

Ресинтезированный PCM (Resynthesized (RS) — PCM). Этот метод синтеза был введен фирмой Roland и основан на анализе сэмплированного звука и его последующего воссоз­дания аддитивным методом синтеза.

Линейно-арифметический синтез (Linear/ Arith­metic (L/A) synthesis). Этот метод также был введен фирмой Roland в конце 80-х гг., начиная с модели D-50. За основу кон­цепции L/A synthesis было взято смешивание небольшого фраг­мента сэмпла «живого» инструмента (обычно атаки) с синтези­рованной волновой формой. Этот метод позволяет дать нату­ральную звуковую окраску, близкую к реальному звучанию, при этом получается выигрыш в меньшей загрузке аппаратных вы­числительных мощностей.

Передовое интегрирование (Advanced Integrated synthesis). Данный метод был впервые представлен в модели Korg M-1. Он использует сэмплированную атаку и другие волно­вые формы, которые впоследствии обрабатываются методами вычитающего синтеза, при этом для получения качественно но­вых звуков дополнительно могут использоваться сложные эф­фект – процессоры.

Синтез переменной архитектуры (VAST — Vari­able Architecture Synthesis Technology). Разновидность DSP-син­теза, основанная на комбинировании мощных вычислений по формированию пэтчей, включая сэмплированные звуки, добав­ление сложных эффектов и открытую архитектуру.

Z-Plane synthesis. Данный метод синтезирования явля­ется уникальной разработкой и впервые был представлен в зву­ковом модуле E-mu Systems Morpheus. Его суть состоит в следующем — берутся две волновые формы разных инструментов и одна промежуточная для  плавного перетекания от первой  ко второй.

Синтез физического моделирования (Physical deling synthesis). За основу данного метода берется сложная математическая модель, которая полностью описывает формирование звука в инструменте. Впервые этот вид синтезирования был представлен в модельном ряде синтезаторов Yamaha VL-1 и VL-7 а теперь используется повсеместно, хотя до полноценного математического повторения  реальных физических процессов еще далеко.

Синтез по математической функции (Mathema­tical function synthesis). Также частный случай физического моде­лирования, с помощью которого можно вкладывать математиче­ские функции, объединять их в функциональные блоки, а из них создавать математические алгоритмические модели. Вернее ска­зать, что этот метод является одним из простейших разделов фи­зического моделирования. Он хорошо подходит для эмуляции аналоговых синтезаторов.

Спектральный синтез (Spectral synthesis). Это даже не метод, а скорее способ создания сложных гармонических зву­ков. За основу их построения берется обыкновенная спектрограмма (графическое представление зависимости частоты от ам­плитуды).

 

 

 

Плата SoundBlaste.

 

В 1998 г. Creative Technology был выпущен удачный образец звуковой платы SoundBlaster Live!, ставший в дальнейшем стан­дартом де-факто.

Версия Platinum 5.1 карты Creative SoundBlaster Live!, которая появилась к концу 2000 г., имела следующие гнезда и соеди­нители (рис. 3.2):

•  аналогово-цифровой выход — либо сжатый сигнал в фор­мате Dolby AC-3 SPDIF с 6 каналами для подключения внешних цифровых устройств или динамиков цифровых систем, либо аналоговая система громкоговорителей 5.1;

•  линейный  вход  —  соединяется  с  внешним  устройством типа кассетного, цифрового магнитофона, плейера и пр.; микрофонное гнездо — соединяется с внешним микрофо­ном для ввода голоса;

 

 

 

•  линейный выход — соединяется с динамиками или внеш­ним усилителем для аудиовывода или наушниками;

•  соединитель джойстика/MIDI — соединяется с джойсти­ком или устройством MIDI; и может быть настроен так, чтобы соединяться с обоими одновременно;

•  CD/SPDIF-соединитель — соединяется с выводом SPDIF, расположенным на дисководе DVD или CD-ROM;

•  дополнительный аудиовход — соединяется с внутренними аудиоисточниками типа тюнера, MPEG или других подоб­ных плат;

•  соединитель аудиоСD — соединяется с аналоговым аудио-выводом на CD-ROM или DVD-ROM, используя кабель аудиоСD;

•  соединитель автоответчика — обеспечивает монофониче­скую связь со стандартным голосовым модемом и передает сигналы микрофона к модему.

Аудиорасширение (цифровой ввод-вывод) — соединяется с циф­ровой платой ввода-вывода (может располагаться в свободной нише накопителя на 5,25", выходящей на переднюю панель ком­пьютера), иногда называемой Live!Drive. Обеспечивает следую­щие соединения:

•  гнездо RCA SPDIF — соединяется с устройствами цифровой звукозаписи типа цифровой ленты и мини-дисков;

•  гнездо наушников — соединяется с парой высококачест­венных наушников; вывод динамика отключается;

• регулировка уровня наушников — управляет громкостью сигнала наушников;

• второй вход (линейный/микрофонный) — соединяется с высококачественным динамическим микрофоном или аудиоисточником (электрогитара, цифровое аудио или мини-диск);

• переключатель второго входа (линейный/микрофон);

•  соединитель MIDI — соединяется с устройствами MIDI че­рез кабель Mini DIN-Standard DIN;

•  инфракрасный  порт  (сенсор)  —  позволяет организовать дистанционное управление ПК;

•  вспомогательные гнезда RCA — соединяются с оборудова­нием бытовой электроники типа видеомагнитофона, теле­визора или проигрывателя компакт-дисков;

• оптический вход/выход SPDIF — соединяется с устройст­вами цифровой звукозаписи наподобие цифровой ленты или мини-дисков.

Другие изготовители звуковых плат быстро восприняли идею относительно отдельного модуля разъемов ввода-вывода. Было разработано множество разновидностей — одни были размеще­ны в отсеке для накопителей подобно Live!Drive, другие были внешними модулями, некоторые из которых были разработаны, чтобы действовать как концентраторы USB.

Современные аудиокарты поддерживают также ряд стандарт­ных возможностей моделирования, генерации и обработки зву­кового сигнала:

•  DirectX — предложенная Microsoft система команд управ­ления позиционированием виртуального звукового источ­ника (модификации — DirectX 3, 5, 6);

•  A3D — разработанный в 1997 г. NASA (National Aeronautics and Space Administration) и Aureal для использования в лет­ных тренажерах стандарт генерации таких эффектов, как густой туман или подводные звуки. A3D2 позволяет моде­лировать конфигурацию помещения, в котором раздаются и распространяются звуки, вычисляя до 60 звуковых отра­жений (как в ангаре, так и в колодце);

•  ЕАХ   (Environmental  Audio   Extensions)   —   предложенная Creative Technology в 1998 г. модель добавления ревербера­ции в A3D с учетом звуковых препятствий и поглощения звуков;

MIDI (Musical Instrument Digital Interface) — протокол, раз­работанный в 1980-х гг., в соответствии с которым коман­ды передаются  по стандартному интерфейсу.  В Windows MIDI-файлы  могут  воспроизводиться  специальной про­граммой-проигрывателем MIDI-Sequcncer. В этой области синтеза звука также имеются свои стандарты. Основным является стандарт МТ-32, разработанный фирмой Roland и названный в соответствии с одноименным модулем генера­ции звуков. Этот стандарт также применяется в звуковых картах LAPC и определяет основные средства для управле­ния расположением инструментов, голосов, а также для де­ления на инструментальные группы (клавишные, ударные и т. д.) (рис. 3.3).

 

 

 

 

 

MIDI

 

Цифровой интерфейс музыкальных инструментов (Musical Instrument Digital Interface или MIDI) появился в начале 1980-х гг. и был разработан, чтобы обеспечить стандартный интерфейс между пультами управления музыкой (наподобие клавиатур)   и  звуковыми  генераторами   (типа  синтезаторов и  «роботов-барабанщиков»). Кроме того, он первоначально был предназначен для работы через последовательное подключе­ние, аналогичное стыку RS-232 [24, 25], и включал в себя как стандарт передачи информации, так и протокол электрических сигналов.

На уровне электросигналов MIDI представляет полудуплекс­ную токовую петлю (5 мА), которая пропускает последователь­ный поток данных по 8 битов на скорости передачи 31,25 килобод.

На уровне передачи информации MIDI представляет собой что-то вроде языка для того, чтобы описать музыкальные такты и эффекты в реальном масштабе времени. Он обеспечивает соеди­нение более чем по 16 каналам, позволяя подключить до 16 инст­рументов MIDI к одному интерфейсу. Некоторые MIDI-интерфейсы имеют 16 выходов, позволяя одновременно обращаться к 256 инструментам.

Интерфейс MIDI передает не звук, а команды, которые вы­полняет устройство-приемник. Инструменты соединяются стан­дартными разъемами 5-DIN. Например, если на клавиатуре на­жата определенная клавиша, то передается команда Note On (включить ноту), которая заставляет принимающее устройство проиграть некоторую музыкальную ноту.

Команда состоит из трех элементов:

•  байт состояния (Status Byte);

•  номер ноты (Note Number);

•  значение скорости нажатия клавиши (Velocity Value).

Байт состояния содержит информацию о типе команды

(в этом случае — «включить ноту»), а также на какой канал она должна быть послана (1 —16).

Номер ноты описывает клавишу, которая была нажата (ска­жем, «ре» Большой Октавы).

Значение скорости указывает силу, с которой эта клавиша была нажата. Принимающий инструмент будет исполнять эту ноту, пока не придет команда Note off (отключить ноту), кото­рая содержит аналогичные данные.

В зависимости от того, какой именно звук проигрывается, синтезаторы по-разному обрабатывают данные Velocity Value. Звук фортепьяно, например, становится громче, если клавиша нажата более сильно, а также изменяются тональные свойства. Профессиональные синтезаторы часто вводят дополнительные тембры, чтобы подражать звуку молоточков, ударяю­щих по струнам.

Число голосов (MIDI-каналов) или полифония звуковой платы определяет максимальное количество элементарных зву­ков, которые плата может воспроизвести одновременно. Это число иногда указывают в названии звуковой карты, например-SB 16, AWE 64, SB PCI 64, SB PCI 128 и т. д.

Существует несколько разновидностей стандарта MIDI — 6М, GS и т. д. Практически все современные звуковые адаптеры совместимы со стандартом GM (General MIDI — единый или общий MIDI).

Постоянные контроллеры Continuous Controllers (CC) ис­пользуются, чтобы управлять параметрами настройки: уровень звучания, эффекты, панорамирование (позиционирование сте­реозвука) и др. Многие устройства MIDI позволяют установить внутренние параметры для СС (до 128). На этой базе Ассоциа­ция Изготовителей MIDI (MIDI Manufacturers AssociationMMA) разработала спецификацию для синтезаторов, известную как General MIDI.

MIDI секвенсоры. Первые приложения MIDI были рассчита­ны на то, чтобы при игре на одной клавиатуре сочетать звуки, произведенные несколькими синтезаторами. Сегодня тем не ме­нее это используется главным образом в секвенсорах, хотя MIDI также применяется и в системах театрального освещения и со­провождения как удобный способ управления множеством про­жекторов и кино (видео) проекторов.

По существу, секвенсор (sequencer) представляет собой циф­ровой магнитофон, который записывает и воспроизводит коман­ды MIDI, а не аудиосигналы. Первые секвенсоры имели неболь­шую память и были способны к запоминанию только от 1 до 2 тыс. музыкальных тактов. С развитием секвенсоров совершен­ствовались и системы MIDI. He ограничиваясь только проигры­ванием нот в MIDI, изготовители разработали способы управле­ния индивидуальными звуковыми параметрами и встроенными цифровыми эффектами, используя постоянные контроллеры (СС). Большинство программ-секвенсоров — приложения на ос­нове ПК, и имеют возможности корректировать эти параметры, используя графические слайдеры.

Использование секвенсоров позволяет удобно редактировать музыкальные фразы и синхронизировать их с фильмом. При этом обеспечиваются экономичные возможности для разработчиков мультимедиа, предоставляющие слушателям высококачественный звук. Для записи оцифрованной музыки требуется не менее 10 Мбайт/мин, в то время как данные MIDI требуют только малую долю от этого.

Сэмплер — синтезатор, у которого для хранения образцов звучания  (сэмплов) вместо постоянной памяти (ROM) используется оперативная память большого объема (RAM). Пользователь перед каждым сеансом работы загружает в память уже готовые звуки, или записывает новые звуки точно так же, как на обычный магнитофон. Впоследствии все эти сэмплы воспроиз­водятся с разной высотой под управлением клавиатуры или сек­венсора. Для изменения высоты тона сэмплов используются та­кие же алгоритмы, как и в программах типа Sound Forge, только они действуют в реальном времени.

При формировании звуков в сэмплерах не используются алгоритмы компрессии, которые, например, позволяют «упако­вать» в 4 Мбайт ROM 250—400 звуков разного тембра, как это происходит в синтезаторах. Кроме этого, синтезаторы ограни­чены тем набором звуков, который находится в ROM, а для сэмплеров выпускается огромное количество библиотек звуков на компакт-дисках, поэтому можно, имея всего лишь одно устройство, практически безгранично расширять его возмож­ности.

Помимо всех перечисленных достоинств, сэмплеры имеют одну очень важную черту — пользователь может создавать звук самостоятельно от первого до последнего шага.

В сэмплере каждый звук создается в нескольких источни­ках, сигналы которых смешиваются между собой. Каждый та­кой источник принято называть леером (от англ. layer — слой). Главным элементом любого леера является генератор — имен­но в нем образуется звук при воспроизведении сэмпла. Иногда генератор сэмплера называют осциллятором. Сэмплы находятся в оперативной памяти устройства и извлекаются оттуда при поступлении соответствующей команды от программы управ­ления.

Генератор воспроизводит сэмпл с разной высотой, в зависи­мости от поступающей в него команды MIDI Note (MIDI  нота). Причем, сэмпл может воспроизводиться как линейно, т. е. от чала до конца, так и зацикливаться. В последнем случае инструмент звучит ровно столько, сколько времени удерживается в Жатом состоянии клавиша на MIDI-клавиатуре. Помимо изменения высоты тона, генератор изменяет уровень воспроизво­димого сэмпла в зависимости от сообщения Velocity (ско­рость нажатия клавиши).

В сэмплере с помощью генератора низкой частоты (LFOLow Frequency Oscillator) можно менять высоту воспроизведения сэмпла с некоторой периодичностью. Но в отличие от про­граммного FM-синтезатора, частотой колебаний LFO сэмплера можно управлять в реальном времени с помощью MIDI-клавиатуры.

Амплитудой колебаний LFO можно управлять с помощью генератора огибающей (Envelope Generator), создающего произ­вольную огибающую. Этот метод называется амплитудной мо­дуляцией (AMAmplitude Modulation). Но в любом сэмплере с помощью амплитудной модуляции можно управлять не толь­ко параметрами генератора низкой частоты, но и параметрами воспроизведения сэмпла. Например, если указано «время ли­нейной атаки» 1 с, то после нажатия клавиши громкость сэмп­ла будет линейно возрастать от минимальной громкости к мак­симальной в течение 1 секунды. Если указывается время зату­хания (Release) 0,5 с, то после отпускания клавиши сэмпл будет звучать указанное время, причем его громкость будет линейно уменьшаться. Естественно, можно «нарисовать» и более слож­ные огибающие.

К сэмплу, который воспроизводится генератором с разной высотой и уровнем в зависимости от поступающих с клавиатуры команд MIDI Note (MIDI нота) и Velocity (Скорость нажатия клавиш), можно применить два вида модуляции: частотную

и амплитудную. В первом случае будет периодически меняться высота воспроизводимого сэмпла относительно взятой на клавиатуре ноты, а во втором — его относительный уровень в течение времени звучания.

Эквалайзер. Для управления тембром звука используются эк­валайзеры — программно-аппаратные средства, способные по­нижать или повышать уровень разных частотных полос. При этом понижается или повышается относительный уровень раз­ных гармоник сигнала, в результате чего мы в акустических сис­темах слышим изменение тембра звука.

Известно два основных типа эквалайзеров — графические и параметрические. Первые отличаются наличием фиксированно­го количества полос: их обычно бывает 15 (можно менять уровень каждой 2/3 октавы звукового диапазона) или 30 (можно менять уровень каждой 1/3 октавы звукового диапазона). На любой из полос уровень сигнала может опускаться или подниматься на Ю—15 дБ (см. рис. 3.7 — графический 10-полосный эквалайзер Winamp). Параметрические эквалайзеры, в отличие от графиче­ских, могут настраиваться на любую частотную полосу любой ширины и поднимать/опускать ее уровень.

 

Единый (общий) стандарт MIDI (General MIDI)     

 

Ввод стандарта MIDI позволял музыкантам создавать аран­жировки, используя любые инструменты MIDI, имевшиеся в на­личии. Но когда созданные файлы проигрывались на другом синтезаторе, не было никакой гарантии, что звучание будет тем же самым, потому что различные изготовители могли назначить инструментам различные номера программ, так что фортепьяно, записанное на одном синтезаторе, может прозвучать как труба на другом и пр.

В сентябре 1991 г. Ассоциация изготовителей MIDI (MMA) и Японский комитет стандартов MIDI (JMSC) положили начало новому этапу в технологии MIDI, приняв стандарт «Общая Система MIDI, уровень 1» (General MIDI System Le­vel 1 — GM или GM1). Спецификация разработана, чтобы обес­печить необходимый уровень совместимости функционирования инструментов MIDI.

GM1. Спецификация налагает ряд требований на совмести­мые звукогенерирующие устройства (клавиатура, звуковой мо­дуль, звуковая плата, программные продукты), включая:

•  минимум 24 канала («голоса») должно быть доступно одно­временно для звуков мелодии и ударных инструментов, или 16 каналов для мелодии плюс 8 для ударных;

•  поддерживаются все 16 каналов MIDI, каждый из которых способен воспроизвести различное число голосов (полифо­ния) или различные инструменты (звук, аккорд, тембр);

•  минимум 16 различных тембров может выполняться одно­временно, воспроизводя различные инструменты. Поддер­живается как минимум  128 предварительно настроенных инструментов (номера MIDI-программ), соответствующих

Инструментальной   карте   GM1   (GM1   Instrument Patch Map), и 47 звуков ударных, которые соответствуют Карте ударных GM1 (GM1 Percussion Key Map). Ме­лодический набор состоит из 16 групп инструментов по 8 в каждой группе (фортепиано, органы, струнные, духовые гитары, и т. п.).

За всеми инструментами были закреплены конкретные но­мера, поэтому мелодия, записанная в GM, будет похоже звучать на разных GM-синтезаторах. GS (General Synthesizer) — стан­дартный набор тембров фирмы Roland, включает дополнительно к General MIDI новые наборы мелодических и ударных инстру­ментов, различные эффекты (скрип двери, звук мотора, крики и т. п.), а также дополнительные способы управления инстру­ментами через MIDI-контроллеры. Многие звуковые карты поддерживают GM по умолчанию, a GS — в порядке расшире­ния.

Стандарт XG (Extended General) фирмы Yamaha включает несколько сотен мелодических и ударных инструментов, приме­няемых профессиональными музыкантами. XG содержит зна­чительно более развитые средства управления синтезом, чем GM и GS. Любой MIDI-канал может быть независимо от дру­гих установлен в режим мелодических или ударных инструмен­тов. Использование стандарта XG позволяет создавать перено­симые MIDI-файлы со звучанием, приближенным к профес­сиональному.

 

3.2. Форматы записи-воспроизведения аудиосигналов

 

Формат МРЗ

 

МРЗ — сокращение от MPEG Lауег3. Это один из основных цифровых форматов хранения аудио, разработанный Fraunhofer IIS и THOMSON, позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является наиболее сложной схемой семейства MPEG Layer 1/2/3. Она требует наибольших затрат машинного времени для кодирова­ния по сравнению с двумя другими и обеспечивает более высо­кое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования Audio CD.

Высокая степень компактности МРЗ при сохранении качества звучания достигается с помощью дополнительного квантования по установленной схеме, позволяющей минимизировать по­тери качества.

Степень сжатия и, соответственно, объем дополнительного квантования, определяются не форматом, а самим пользовате­лем при задании параметров кодирования. Ширина потока, или битрейт (bitrate) может изменяться от наибольшего для МРЗ (320 кбит/с) до 96 кбит/с и даже ниже. Термин битрейт обозначает общую ширину потока, независимо от того, монофо­нический или стереофонический сигнал он содержит.

При испытаниях опытные эксперты, специализирующиеся на субъективной оценке качественности звучания, не смогли различить звучание оригинального трека на CD и закодирован­ного в МРЗ с коэффициентом сжатия 6 : 1, т. е. с битрейтом в 256 кбит/с.

Более низкие битрейты, несмотря на их популярность, не дают возможности обеспечить надлежащее качество кодирова­ния. Объективно и 256 кбит/с не дает возможности осуществить полностью обратимое кодирование, то же самое можно сказать и про наивысший битрейт — 320 кбит/с, но отличия от CD Audio, по которому кодируется тестовый МРЗ, сравнимы с отличиями самого CD Audio от исходного высококачественного сигнала, из которого он был получен путем оцифровки.

Поэтому самое большое на сегодня преимущество МРЗ перед другими подобными форматами состоит в том, что ни про один другой формат нельзя пока уверенно сказать, что он полностью гарантирует устойчивое сохранение качества звучания на доста­точно высоких битрейтах, или что для него написано такое же множество удобного программного обеспечения, как для МРЗ.

Файл формата МРЗ (обычно используется расширение * . mp3) может также содержать информацию о файле непосредственно в заголовке: имя исполнителя, графику (альбом диска), KL для дальнейшей информации, текст песни и т. д.

Процесс кодирования. Перед кодированием исходный сигнал разбивается на участки, называемые фреймами, каждый из которых кодируется отдельно и помещается в конечный файл независимо от других. Последовательность воспроизведения определяется порядком Расположения фреймов. Каждый фрейм может кодироваться с разными параметрами. Информация о них со­держится в заголовке фрейма.

Кодирование начинается с того, что исходный сигнал с по­мощью фильтров разделяется на несколько, представляющих от­дельные частотные диапазоны, сумма которых эквивалентна ис­ходному сигналу.

Для каждого диапазона определяется величина маски­рующего эффекта, создаваемого сигналами соседних диа­пазонов и сигналом предыдущего фрейма. Если она превышает мощность сигнала интересующего диапазона или мощность сиг­нала в нем оказывается ниже определенного опытным путем по­рога слышимости, то для данного фрейма данный диапазон сиг­нала не кодируется.

Для оставшихся данных каждого диапазона определяется, сколькими битами на сэмпл можно пожертвовать, чтобы поте­ри от дополнительного квантования были ниже величины маскирующего эффекта. При этом учитывается, что потеря одного бита ведет к внесению шума квантования величиной порядка 6дБ.

После завершения работы психоакустической модели фор­мируется итоговый поток, который дополнительно кодируется по Хаффману, на этом кодирование завершается.

Кроме того, кодирование стереосигнала осуществляется че­тырьмя различными методами:

•  Dual Channel — каждый канал получает ровно половину потока и кодируется отдельно, как моносигнал. Рекомен­дуется главным образом в случаях, когда разные каналы содержат принципиально разный сигнал — скажем, текст на различных языках;

•  Stereo — каждый канал кодируется отдельно, но кодер мо­жет принять решение отдать одному каналу больше места, чем другому;

•  Joint Stereo (MS Stereo) — стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшим битрейтом. Это позволяет несколь­ко увеличить качество кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его ухудшению, если кодируются сигналы, по фазе не сов­падающие;

•  Joint Stereo (MS/IS Stereo) — вводит еще один метод упро­щения стереосигнала, повышающий качество кодирования на особо низких битрейтах. Состоит в том, что для некото­рых частотных диапазонов оставляется уже даже не разностный сигнал, а только отношение мощностей сигнала в разных каналах. Очевидно, для кодирования этой инфор­мации употребляется еще меньший битрейт. MS Stereo — частный случай MS/IS Stereo, когда переменная, отвечаю­щая за кодируемый таким образом диапазон, принимает нулевое значение.

Скорости передачи. На низких битрейтах всегда срезаются мелкие, сравнительно тихие детали, наличие или отсутствие ко­торых нередко серьезно меняет эмоциональную окраску компо­зиции, придает или лишает ее таких эффектов, как ощущение «кристальной чистоты» звука (в той мере, в которой она присут­ствует в CD Audio). Кроме того, в соответствии с психоакустиче­ской моделью, высшие (более 16 кГц) частоты на низких битрейтах кодируются с очень низким приоритетом. Кроме того, имеют место разные особенности кодеров. Так, у кодеров от FhG IIS на 128 кбит/с могут оказаться «смазанными» верхние частоты, наблюдается эффект «шепелявости». Узкое место всех схем компрессии класса MPEG — участки с резкими измене­ниями сигнала. В случае МРЗ задержка может достигать величин порядка 160 мс, теоретический минимум — 59 мс.

На высших битрейтах при последовательном применении психоакустической модели, разработанной FhG IIS, проблемы могут доставлять только ошибки, внесенные при написании ко­дера.

Битрейты порядка 112—128 кбит/с по качеству неплохи для прямых трансляций и ознакомительного прослушивания, но от­нюдь не для создания архивов музыки качества CD Audio.

Любители МРЗ по-разному оценивают степень приемлемо­сти одних и тех же битрейтов и имеют свой взгляд на то, какой именно битрейт следует считать оптимальным. Одни выбирают 128 кбит/с, другие — 160 кбит/с, третьи золотую середину: 192—256 кбит/с, некоторые — 320 кбит/с.

Из этого можно сделать три вывода. Во-первых, битрейт 256 кбит/с следует считать пограничным. Во-вторых, для абсо­лютного большинства пользователей он действительно достато­чен. В-третьих, для высокого качества следует несколько увели­чить запас скорости.

С   Другой   стороны,   те   же   тесты   определили   диапазон «—192 кбит/с как в большинстве случаев вполне приемлемый я хранения аудио на компьютере, например, в компьютерных Tax, когда внимание отвлечено.

Следующий после 256 кбит/с битрейт — 320 кбит/с, он же — максимальный для кодирования аудио с характеристиками CD Audio, т. е. 44,1 кГц 16 бит Stereo. В данном случае мы имеем запас в 1/4 от битрейта 256 кбит/с, и его вполне можно считать достаточ­ным в силу имеющихся данных о степени улучшения качества ко­дирования при кодировании на 160 кбит/с вместо 128 кбит/с.

Однако различие между качеством звука на битрейтах 128 кбит/с и 256 кбит/с / 320 кбит/с принципиально. Первый к качеству уровня CD никакого отношения не имеет, в отличие от двух последних.

В Internet, как правило, можно найти только МРЗ, закодиро­ванные с битрейтом 128 кбит/с. Этот битрейт был признан также , оптимальным для использования в Internet.

В XingTech был разработан кодер, использующий технику переменного битрейта (VBR), при которой разные участки трека кодируются с разным битрейтом, исходя из степени их сложности для кодирования.                                            

 

Другие форматы

 

WAV. Формат WAV является метаформатом для данных лю­бого типа. Имеет стандартный заголовок и описания областей данных, которых может быть несколько, способ же кодирования аудиосигнала может быть каким угодно. Вполне могут содер­жаться данные, не имеющие отношения к аудио.

Каждый метод кодирования, указываемый в заголовке, имеет собственный идентификатор, в соответствии с которым Windows и определяет, установлен ли кодек для работы с данным фай­лом, и если установлен — подключает его.                                  

Кодеки, индивидуальные для каждого подформата, регистри­руются в системе при их установке, после чего становится возможным использовать WAV-файлы, содержащие аудиоданные в форматах, поддерживаемых данными кодеками.                            

Стандарт МРЗ не определяет никакого точного стандартного  математического алгоритма кодирования, его разработка целиком и полностью остается на совести разработчиков кодеров. Вместо этого он определяет общую схему процесса кодирования, а также формат закодированного фрейма. Сами последователь­ности фреймов могут передаваться потоком (streaming) или хра­ниться в файлах.

Часто к последовательности фреймов добавляют стандартный заголовок мета-аудиоформата WAV и получается то, что называют WAV-МРЗ.

VQF Этот формат разработан компанией NТТ. Алгоритм кодирования широко не разглашается, но если сравнить результаты кодирования в форматах VQF и МРЗ, то можно заключить, что алгоритмы имеют очень мало общего и основаны на совер­шенно разных подходах к сжатию звука.

Самая сильная сторона формата — степень сжатия. VQF-файл с компрессией 80 кбит/с по качеству идентичен МРЗ-файлу, записанному в 128 кбит/с, степень сжатия превос­ходит МРЗ более чем на 30 %. Главный недостаток алгоритма — высокое потребление системных ресурсов.

WMA. В 1998 г. компания Voxware присоединилась к проекту TwinVQ и в его составе участвовала в разработке формата VQF. Через некоторое время компания отделилась от проекта и на ос­нове разработок VQF создала новый формат, получивший назва­ние Voxware Audio Codec 4.0. Он стал первым алгоритмом сжа­тия, обеспечивающим качество 128 кбит/с МРЗ-файлов при цифровом потоке в 64 кбит/с.

OGG Vorbis. Этот формат был опубликован летом 2000 г. В это же время появилась бета-версия его кодера. После втрое более медлительного по сравнению с WMA процесса кодирова­ния на выходе при 128 кбит/с получается звук, близкий к ориги­нальной записи.

В файле OGG может содержаться до 255 каналов, т. е. мож­но кодировать многоканальные потоки вроде Dolby Digital. Кро­ме того, в OGG-файлы можно встраивать графические изобра­жения и тексты, которые могут возникать по ходу воспроизве­дения.

МРЗРrо. Создателем МРЗРrо является частная компания Coding Technologies. Созданная в 1997 г., компания занимается Разработкой и маркетингом кодеков на основе технологии SBR (Spectral Band Replication). У Coding Technologies два солидных стратегических партнера — Fraunhofer Institute и Thomson Multimedia.

Прежде всего своим  появлением она обязана возникновению  потребности передачи цифровой музыки в реальном времени через Internet (Internet-радио и т. д.), а также для мобильных копьютеров  и   различных  портативных  цифровых  плейеров. Ограниченная скорость передачи или малый объем памяти вынуждают использовать низкие битрейты при сжатии музыки применяя форматы МРЗ или ААС. Использование более скоро­стных способов связи, таких, как ISDN или xDSL, не обеспечи­вает постоянного потока данных из-за перегрузки сети Internet

Формат МРЗ Pro в отличие от стандартного МРЗ содержит два потока, один из которых обычный Layer III-поток, а второй содержит информацию, на основе которой декодер восстанавли­вает самые верхние частоты. Поэтому файл, сжатый с использо­ванием МРЗРrо (имеющий расширение *.mp3), может быть вос­произведен и обычным проигрывателем, но с частотой дискре­тизации 22 кГц, так как плейер воспримет только первый поток.

DVD-аудио. Известно, что первым оптическим носителем дан­ных, ставшим широко доступным публике, был хорошо знако­мый аудиокомпакт-диск. Компьютерной промышленности потре­бовалось несколько лет для того, чтобы понять, что компакт-диск является идеальной средой для того, чтобы сохранять и распреде­лять большие количества цифровых данных, и только в 1990 гг. устройства CD-ROM стали стандартными компонентами ПК.

С появлением DVD производители CD начали создавать стандарты более высококачественного воспроизведения. Среди них — аудиокомпакт-диск высшего качества (SACD или Super Audio CD), диск цифровой звукозаписи (DAD или Digital Audio Disc).

Эти стандарты предполагают диски с разрешающей способ­ностью (уровни квантования) 24 бита и частотой выборки в 96 кГц, в противоположность обычному CD с форматом 16 бит и 44,1 кГц. Кроме того, формат SACD обладает обратной совмес­тимостью с существующими проигрывателями — факт, который может помочь в сражении за потребителя.

Когда DVD появились в 1996 г., еще не был предусмотрен формат DVD-Audio и только в начале 1998 г. DVD-Форум в со­трудничестве с ключевыми производителями промышленности музыки выпустил проект такого стандарта [24, 25]. Специфика­ция DVD аудио VI.0 была выпущена весной 1999 г., но потребо­вался еще год, прежде чем вышла спецификация VI .2, в которой были добавлены защита от копирования и создание водяных знаков.

Основное преимущество спецификации DVD-аудио сравни­тельно с DVD-видео и компакт-диском заключается в значи­тельном увеличении качества при записи в аудиоформате РСМ (Pulse Code Modulation или импульсно-кодовая модуляция).

DVD -аудио обеспечивают значительно более высокое качество РСМ -аудио, чем возможно на компакт-диске или DVD-видео. DVD-аудио РСМ может быть записан с диапазоном частот, который более чем в 4 раза шире, чем для CD, что предоставляет

живость и выразительность,  невозможные  на компакт-диске.  DVD -аудио РСМ также имеет намного больший динамический диапазон, чем это возможно на компакт-диске, — делающий

громкие звуки громче, а тихие — более тихими.

Таблица 3.1 сравнивает технические спецификации для РСМ на DVD-аудио и стандартном компакт-диске.

 

Вместимость двухслойного диска DVD-аудио — по крайней мере до 2 ч для полного, окружающего звука, и до 4 ч для сте­реозвука. Вместимость однослойного диска — вполовину ниже.

Сравнительные характеристики некоторых форматов. На Рис. 3.4 приводятся амплитудно-частотные характеристики (АЧХ) аудиосигналов:

•  исходный звук (WAVE-файл);

•  результаты кодирования-декодирования каждым из коде­ков: МРЗ на 128 и 192 кбит/с; МРЗРrо на 64 и 96 кбит/с; WMA на 64 и 96 кбит/с.

Жанры музыки, выбранные для тестирования:

Dance   — современная танцевальная музыка (Gala «Keep Secret», ритмичный и богатый различными стереоэффектами фрагмент);

 

 

Jazz — джаз с живыми исполнителями (Joe Cocker «Could You Be Loved», исключительно живая музыка с мощным муж­ским вокалом и женским бэк-вокалом, насыщенная на средних и высоких частотах);

Pop — поп-музыка с вокалом (Nek «Laura No Esta», итало-поп с ярко выраженным вокалом и, соответственно, богаты­ми средними частотами).

На АЧХ, представляющих танцевальную музыку и битрейты, соответственно 128 кбит/с для МРЗ и 64 кбит/с для МРЗРrо и WMA (рис. 3.4, а), легко заметить, что на частотах до 10 кГц все кодеки выглядят практически одинаково, не считая провала на 30 Гц у МРЗ, который, правда, не будет заметен на слух.

В случае джаза, где реальные инструменты звучат в сочета­нии с различными вокалами (рис. 3.4, б) следует отметить МРЗ/128, как обеспечивающий наиболее точный результат. Несмотря на то, что фильтрация верхнего диапазона начинается уже на 15,5 кГц, передача высоких частот до этого момента дос­таточно точная. В случае МРЗРrо /64 звук более богат деталями высоких частот.

В случае поп-музыки (рис. 3.4, в) лидером является МРЗРrо.

При рассмотрении более высоких битрейтов (рис. 3.4, г, д), заметно, что все кодеки ведут себя более предсказуемо, при этом ближе всех к форме оригинальной АЧХ графики у МРЗРrо и МРЗ, a WMA не передает ряд мелких деталей.

Если говорить о поп-музыке, то теперь WMA не искажает вокал Nek и звучит очень хорошо, примерно на уровне МРЗ в 128 —160, хотя этого и не скажешь, глядя на графики АЧХ. По частотному балансу МРЗРrо 96 и МРЗ 192 идут практически на одном уровне.

Вполне естественно, что увеличение потока приведет к улуч­шению и такой более сложной для кодирования музыки, как джаз.

 

Программные средства записи-воспроизведения звука

 

Большинство МРЗ-файлов производится из материала, на­ходящегося на аудиокомпакт-диске. Это — двухступенчатый процесс, первая стадия включает преобразование дорожек из формата цифровой звукозаписи CD-DA (CD-Digital audio) к формату WAV. Есть программы, которые могут произвести МРЗ непосредственно из аудио CD, но они достигают этого, все же выполняя извлечение аудио из компакт-диска как на­чальный шаг процесса. Задача выполняется специализирован­ными программами, известными как CD-Ripper (взломщики CD). Программа читает дорожки аудиокомпакт-диска в цифро­вой форме и записывает их на жесткий диск как WAV-файлы. Четырехминутная дорожка (трек, фонограмма) занимает около 40—50 Мбайт формата WAV (расширение .wav), так что пре­образование полного компакт-диска требует большое простран­ство на жестком диске.

Вторая стадия в процессе заключается в конвертировании .wav-файла в формат .mрЗ. Этот шаг использует специализиро­ванное программное обеспечение и программы, которые испол­няют эту задачу, известны как кодеры МРЗ. МРЗ-файлы могут создаваться, используя разнообразие норм сжатия, разрешая пользователям выбрать оптимальное соединение количества и качества. Как правило, доступны следующие варианты:

•  качество   компакт-диска   —  сжатие   12:1, поток данных (битрейт) между 128 и 192 кбит/с;

•  почти качество компакт-диска — сжатие в пределах 18 : 1;

•  качество радио ЧМ — сжатие может быть 70 : 1, ско­рость — 64 кбит/с.

МРЗ Maker. Программный продукт Magix 2004 МРЗ Maker (рис. 3.5, 3.6) реализует следующие преобразования звуковых данных:

•  дорожка аудиоСD — файл МРЗ;

•  микрофонный или линейный вход — файл МРЗ;

•  файл МРЗ — аудиоСD и пр.

Winamp. Winamp является весьма популярным плейером, это мультимедиа плейер с поддержкой неограниченного числа фор­матов (рис. 3.7). При этом используются декодеры, предостав­ляемые производителями. В целом система напоминает работу Windows с WAV-файлами. Он является одним из самых развитых плейеров, и не только МРЗ. Большинство МРЗ-файлов, доступ­ных через Internet, закодировано в формате 44 кГц и 128 Кбит/с, который приводит к хорошему коэффициенту «качество/размер» для файла МРЗ.

 

 

 

Системы воспроизведения звукового окружения. Средства вос­произведения звукового окружения начинались со стереозапи­сей и УКВ ЧМ-радио. Широко использовались магнитофоны и FM-стерсо тюнеры с высококачественным двухканальным зву­ком. В кинотеатрах зрители могли оценить звук в формате Dolby Stereo Optical. Первые видеокассеты предполагали только моно­фонический звук посредственного качества, однако вскоре нача­ли тиражироваться кассеты с двухканальным звуком. Сначала использовались просто раздельные звуковые дорожки, затем тех­нология Hi-Fi. Лазерные диски с самого начала выпускались с двухканальным стереозвуком высокого качества. Вскоре и боль­шинство стандартов вещательного телевидения были адаптиро­ваны для передачи видео с двухканальным звуковым сопровож­дением в эфире и в кабеле.

Первыми на рынке появились простые декодеры Dolby Surround, которые позволяли на домашней аппаратуре выделить и прослушать третий пространственный канал — surround channel. Впоследствии был разработан более интеллектуальный декодер, Dolby Surround Pro Logic, который выделял и центральный   —  center channel.   Получился   «домашний  кинотеатр – комплекс аппаратуры для высококачественного воспроизведения звука и видео с декодером Dolby Pro Logic Surround Sound (рис 3.8).

 

 

Во-первых, технология Dolby Pro Logic удачно совмещает оп­тимальную конфигурацию пространственных каналов (R, L, С, S) с возможностями записи и передачи (два физических кана­ла), которыми обладает практически вся бытовая аппаратура. Во-вторых, возможности и качество Dolby Pro Logic отвечают ак­туальным требованиям современного пользователя. И, в-третьих, используются единые стандарты на аппаратные и программные средства.

Сегодня в Dolby Surround кодируется звуковое сопровожде­ние вещательного телевидения, причем не только художествен­ных фильмов, но музыкальных, спортивных передач и даже но­востей. Dolby Surround используется и в областях, не связанных с видео, например, звукозаписывающие компании Delos, RCA Victor/BMG Classic, Concord Jazz выпустили на рынок CD и ау­диокассеты с музыкальными записями в Dolby. Многими разработчиками ведутся успешные эксперименты по внедрению Dolby Surround в видеоигры и другие мультимедийные приложения.

Кодер Dolby Surround не предназначен для передачи четырех независимых сигналов звука, каждый из которых надо прослу­шивать раздельно (например, звука одной ТВ программы на раз­ных языках). В этом случае развязка между двумя любыми кана-1ами должна была бы быть максимальной, а амплитуды и фазы сигналов могли бы быть совершенно не связаны между собой. Напротив, задача Dolby Surround — передать четыре канала звука (soundtrack), которые будут прослушиваться одновременно и при этом воссоздавать в сознании слушателя пространственную звуковую картину (soundfield). Эта картина составляется из не­скольких звуковых образов (sound images) — звуков, которые слушатель воспринимает связанными со зрительными образами на экране. Звуковой образ характеризуется не только содержани­ем и мощностью звука, но и направлением в пространстве.

На входе кодера Dolby Surround присутствуют сигналы четы­рех каналов. — L, С, R и S, а на выходах — два канала Lt (left total) и Rt (right total). Слово «total» (общий) означает, что кана­лы содержат не только «свой» сигнал (левый и правый), но и ко­дированные сигналы других каналов — С и S.

Кодирование реализуется простыми аналоговыми методами. Сигнал, кодированный в Dolby Surround, не содержит каких-ли­бо управляющих сигналов или инструкций для декодера. По своим электрическим характеристикам он ничем не отличается от обычного двухканального сигнала стерео, и опознать кодиро­ванный сигнал простыми аппаратными методами (например, с помощью осциллографа или анализатора спектра) невозможно.

 

3.3. Технологии статических изображений

 

С 80-х гг. бурно развивается технология обработки на компь­ютере графической информации. Компьютерная графика широ­ко используется в компьютерном моделировании в научных ис­следованиях, компьютерных тренажерах, компьютерной анима­ции, деловой графике, играх и т. д.

 

Растровая и векторная информация

 

Существуют два основных принципа формирования изобра­жения. Первый — путем нанесения на поверхность рисунка со­вокупности точек разного цвета, плотности, яркости (как это и происходит в цветной или черно-белой полиграфии), второй — путем вычерчивания и заштриховывания (графика или гравюра).

Оба этих подхода сохранились и в компьютерную эру, толь­ко точечное изображение получило наименование растрово­го (впрочем, как это и было у печатников — рис 3.9, а), рисованное — векторного  (рис. 3.9, б). Кроме того, компьютеризация сама предложила ряд новых подходов к графике, например фрактальный. Фрактал — это объект, отдельные элементы которого наследуют свойства родительских структур. Фракталы позволяют детально описывать целые классы изобра­жений с расходованием относительно малого количества памя­ти, однако к изображениям вне этих классов фракталы плохо применимы.

Большинство устройств ввода-вывода данных в ЭВМ имеют дело с растровой информацией, хотя векторное изображение бо­лее экономично, например, чтобы провести прямую, при век­торном подходе достаточно задать координаты се начала и конца (четыре числа, (х1, у1), (х2, у2)) в то время как растровое описание требует задания всех точек прямой (а их может быть несколько сотен или тысяч!). Более того, векторное представление легко масштабируется (рис. 3.9, б), что и используется в форматах до­кументов PostScript, PDF и пр.

Поэтому перед разработчиками информационных систем стоит важная проблема — векторизация растрового изобра­жения (рис. 3.9, в). Этот процесс называется трассировкой.

 

Программа трассировки отыскивает группы пикселей с одинако­вым цветом, а затем создает соответствующие им векторные объекты.

 

Схемы цветообразования

 

Цвета одних предметов человек видит потому, что они излу­чают свет, а других — потому, что они его отражают. Когда предметы излучают свет, они приобретают тот цвет, который мы видим. Когда они отражают свет (бумага, например), их цвет определяется цветом падающего на них света и цветом, который эти объекты отражают.

Сегодня диаметрально противоположные способы генерации цвета мониторов и принтеров являются основной причиной ис­кажения экранных цветов при печати. Для того чтобы получать предсказуемые результаты на экране и печати, нужно хорошо представлять работу двух противоположных систем описания цвета в компьютере: аддитивной и субтрактивной.

Аддитивные и субтрактивные цвета. Аддитивный цвет (от англ. add — суммировать, складывать) образуется при соеди­нении лучей света разных цветов. В этой системе используются три основных цвета — красный, зеленый и синий (RGBRe d, G r e e n, В1 u e). Если их смешать друг с другом в равной пропорции, они образуют белый цвет, а при смешивании в разных пропорциях — любой другой, отсутствие же всех ос­новных цветов представляет черный цвет. Система аддитивных цветов работает с излучаемым светом, например от монитора компьютера.

В системе субтрактивных цветов (от англ. subtract — вычитать) происходит обратный процесс — вы получаете ка­кой-либо цвет, вычитая другие цвета из общего луча отраженно­го света. В этой системе белый цвет появляется в результате от­сутствия всех цветов, тогда как их присутствие дает черный цвет. Система субтрактивных цветов работает с отраженным светом, например от листа бумаги. Белая бумага отражает все цвета, ок­рашенная — некоторые поглощает, а остальные отражает.

В системе субтрактивных цветов основными являются голу­бой, пурпурный и желтый цвета (CMY), противоположные крас­ному, зеленому и синему. Когда эти цвета смешиваются на бе­лой бумаге в равной пропорции, получается черный цвет. Вернее, предполагается, что должен получиться черный цвет. В действительности типографские краски поглощают свет не полностью и поэтому комбинация трех основных цветов выглядит темно-коричневой. Чтобы исправить возникающую неточ­ность, для представления тонов черного цвета принтеры добавляют немного черной краски. Систему цветов, основанную на таком процессе четырехцветной печати, принято обозначать аб­бревиатурой CMYK (Cyan, Magenta, Yellow, Black).

Цветовая модель RGB. Монитор компьютера создает цвет непосредственно излучением света и использует, таким образом, систему цветов RGB. Поверхность монитора состоит из мель­чайших точек (пикселей) красного, зеленого и синего цветов, форма точек варьируется в зависимости от типа электронно-лу­чевой трубки (ЭЛТ). Пушка ЭЛТ подает сигнал различной мощ­ности на экранные пиксели. Каждая точка имеет один из трех цветов, при попадании на нее луча из пушки она окрашивается в определенный оттенок своего цвета в зависимости от силы сигнала. Поскольку точки маленькие, уже с небольшого расстоя­ния они визуально смешиваются друг с другом и перестают быть различимы. Комбинируя различные значения основных цветов, можно создать любой оттенок из более 16 млн цветов, доступ­ных в RGB.

Лампа сканера светит на поверхность захватываемого изо­бражения (или сквозь слайд), затем отраженный или прошед­ший через слайд свет с помощью системы зеркал попадает на чувствительные датчики, которые передают данные в компьютер также в системе RGB. Система RGB адекватна цветовому вос­приятию человеческого глаза, рецепторы которого тоже настрое­ны на красный, зеленый и синий цвета.

Цветовая модель CMYK. Система цветов CMYK была широ­ко известна задолго до того, как компьютеры стали использо­ваться для создания графических изображений. Триада основ­ных печатных цветов: голубой, пурпурный и желтый (CMY, без черного) является, по сути, наследником трех основных цветов живописи (синего, красного и желтого). Изменение оттенка пер­вых двух связано с отличным от художественных химическим уставом печатных красок, но принцип смешения тот же самый, художественные, и печатные краски, несмотря на провозглашаемую самодостаточность, не могут дать очень многих оттенков. Поэтому художники используют дополнительные краски на основе чистых пигментов, а печатники добавляют как минимум черную краску. Система CMYK создана и используется для пе­чати. Все файлы, предназначенные для вывода в типографии должны быть конвертированы в CMYK. Этот процесс называет­ся цветоделением.

Цвет в CMYK может быть описан совокупностью четырех чисел (или цветовыми координатами), каждое из которых пред­ставляет собой процент краски основных цветов, составляющий цветовую комбинацию. Например, для получения темно-оран­жевого цвета следует смешать 30 % краски cyan, 45 % magenta, 80 % yellow и 5 % black, тогда этот цвет можно закодировать сле­дующим образом — (30,45,80,5), или же C30M45Y80K5.

Схема YUV. Исследования показали, что глаз человека более восприимчив к яркости, чем к цветам. Это использовано в теле­визионном методе YUV для кодирования изображений, при ко­тором интенсивность обрабатывается независимо от цвета. Сиг­нал Y предназначен для передачи интенсивности и измеряется в максимальном разрешении, в то время как U и V — для цвето­вых сигналов различия.

При YUV-представлении видеосигнала цветоразностные компоненты U и V передаются с вдвое меньшим разрешением (частота дискретизации у сигнала яркости в 4 раза больше основ­ной частоты в 3 МГц, а у цветоразностных — в 2 раза). Обычно при характеристике устройств ввода такую оцифровку называют половинным разрешением (или YUV 4:2:2). Запись 4:1:1 (разре­шение одной четверти YUV 4:1:1) означает в 4 раза меньшую частоту выборки, что приводит к потере качества изображения. Запись 8:8:8 означает представление и оцифровку видеосигна­ла как RGB-составляющих с наилучшим качеством.

Перевод в цифровую форму сигнала YUV вместо RGB требу­ет 16 битов (два байта) вместо 24 битов (три байта), чтобы пред­ставить точный цвет, так что одна секунда видеоформата PAL требует приблизительно 22 Мбайта.

Цветовые модели HSB и HSL. Системы цветов RGB и CMYK базируются на ограничениях, накладываемых аппаратным обес­печением (мониторами и сканерами в случае с RGB и типограф­скими красками в случае со CMYK). Более логичным способом описания цвета является представление его в виде тона, насы­щенности и яркости — система HSB. Она же известна как систе­ма HSL (тон, насыщенность, освещенность).

Тон представляет собой конкретный оттенок цвета на цве­товом круге, отличный от других: красный, зеленый, голубой и т. п. Насыщенность цвета характеризует его относительную интенсивность (или чистоту). Уменьшая насыщенность, например красного, мы делаем его более пастельным, приближаем с серому. Яркость (или освещенность) цвета показывает величину затемнения или осветления исходного оттенка.

HSB имеет перед другими системами важное преимущество она больше соответствует природе цвета, хорошо согласуется с моделью  восприятия  цвета человеком.   Многие  оттенки можно быстро и удобно получить в HSB, конвертировав затем в RGB или CMYK, доработав в последнем случае, если цвет был искажен.

Цветовая модель Grayscale. Цветовая модель Grayscale пред­ставляет собой ту же индексированную палитру, где вместо цве­та пикселям назначена одна из 256 градаций серого.

 

Форматы графических файлов

 

Сжатие информации. Объем обрабатываемой и передаваемой информации быстро растет. Это связано с выполнением все бо­лее сложных прикладных процессов, появлением новых инфор­мационных служб, использованием изображений и звука. Сжа­тие данных (data compression) — процесс, обеспечивающий уменьшение объема данных. Сжатие позволяет резко уменьшить объем памяти, необходимой для хранения данных, сократить (до приемлемых размеров) время их передачи. Особенно эффектив­но сжатие изображений. Сжатие данных может осуществляться как программным, так и аппаратным или комбинированным ме­тодом.

Сжатие текстов связано с более компактным расположением байтов, кодирующих символы. Определенные результаты дает статистическое кодирование, в котором наиболее часто встре­чающиеся символы имеют коды наименьшей длины. Здесь так­же используется счетчик повторений пробелов. Что же касается звука и изображений, то объем представляющей их информации зависит от выбранного шага квантования и числа разрядов аналого-дискретного преобразования. В принципе, здесь используются то же методы сжатия, что и при обработке текстов. Если сжатие текстов происходит без потери информации, то сжатие звука и изображения почти всегда приводит к ее некоторой потере. Сжатие широко используется при архивировании данных.

Размер файла, в котором сохраняется изображение, существенно зависит от формата файла, а это — важная характеристика технологии, поскольку высокие разрешающие способности, поддерживающиеся многими современными сканерами, могут при вести к созданию файлов размером до 30 Мбайт для страницы формата А4.

Методы сжатия графики.

RLE. При сжатии методом RLE (Run Length Enconding кодирование длины серий) последовательность повторяющихся величин (например, набор бит для представления пикселя) заме­няется парой — повторяющейся величиной и числом ее повто­рений. Метод сжатия RLE используется в некоторых графиче­ских форматах, например в PCX.

Программа сжатия файла может сначала записывать количе­ство видеопикселей, а затем их цвет или наоборот. Поэтому воз­можна такая ситуация, когда программа, считывающая файл, ожидает появления данных в ином порядке, чем программа, со­храняющая этот файл на диске. Если при попытке открыть файл, сжатый методом RLE, появляется сообщение об ошибке или пол­ностью искаженное изображение, нужно считать этот файл с по­мощью другой программы или преобразовать его в иной формат.

Сжатие методом RLE наиболее эффективно для изображе­ний, которые содержат большие области однотонной закраски, и наименее эффективно для отсканированных фотографий, так как в них нет длинных последовательностей одинаковых видео­пикселей.

Метод сжатия LZW (назван так по первым буквам его разработчиков Lempel, Ziv, Welch) основан на поиске повторяю­щихся узоров в изображении. Сильно насыщенные узорами рисунки могут сжиматься до 0,1 их первоначального размера. Ме­тод сжатия LZW применяется для файлов форматов TIFF и GIF; при этом данные формата GIF сжимаются всегда, а в случае формата TIFF право выбора возможности сжатия предоставляет­ся пользователю. Существуют варианты формата TIFF, которые используют другие методы сжатия. Это означает, что возможна ситуация, когда файл в формате TIFF не может быть прочитан некоторой графической программой, хотя она должна «пони­мать» этот формат.

Метод сжатия JPEG обеспечивает высокий коэффициент сжатия для рисунков фотографического качества. Формат файла JPEG, использующий этот метод сжатия, разработан объединенной группой экспертов по фотографии (Joint Photographic Experts Group). Сжатие по JPEG сильно уменьшает размер файла с   растровым   рисунком   (возможен   коэффициент   сжатия 100:1). Высокий коэффициент сжатия достигается за счет сжатия с потерями, при котором в результирующем файле теряется часть исходной информации. Метод JPEG использует тот факт, то в то время как человеческий глаз чувствителен к изменению кости, изменения цвета он замечает хуже. Поэтому при сжа­тии этим методом запоминается больше информации о разнице между яркостями пикселей и меньше — о разнице между их цве­тами. Уровень сжатия (степень потери данных) может изменять­ся, но даже при задании максимального качества JPEG теряет некоторые подробности. Количество доступных уровней сжатия зависит от используемого для редактирования изображений про­граммного обеспечения.

 

Растровые форматы    

 

Перечислим основные растровые форматы изображений.

BMP (BitMaP — точечный рисунок) — основной формат рас­тровой графики в ОС Windows. Для имени файла, представлен­ного в BMP-формате, чаще всего используется расширение .bmp, хотя некоторые файлы имеют расширение .rle, что обычно ука­зывает на то, что произведено сжатие растровой информации файла одним из двух способов сжатия RLE, которые допустимы для файлов ВМР-формата.

В файлах BMP информация о цвете каждого пикселя коди­руется 1, 4, 8, 16 или 24 битами (бит/пиксель). Числом бит/пик­сель, называемым также цветовой глубиной, определяется мак­симальное число цветов в изображении. Изображение при глу­бине 1 бит/пиксель может иметь всего два цвета, а при глубине 24 бит/пиксель — более 16 млн (224) различных цветов.

Файл разбит на четыре основных раздела — заголовок файла Растровой   графики,   информационный   заголовок   растрового массива, таблица цветов и собственно данные растрового массива загодовок файла растровой графики содержит информацию Файле, в том числе адрес, с которого начинается область дан­ных растрового массива. В информационном заголовке массива содержатся сведения об изображении, хранящемся файле (например, высоте и ширине в пикселях). В таблице цветов представлены значения основных цветов RGB (красный зеленый, синий) для используемых в изображении цветов. Про­граммы, считывающие и отображающие BMP-файлы, в случае использования видеоадаптеров, которые не позволяют отобра­жать более 256 цветов, для точной цветопередачи могут про­граммно устанавливать такие значения RGB в цветовых палит­рах адаптеров.

Формат собственно данных растрового массива в файле BMP зависит от числа бит, используемых для кодирования данных о цвете каждого пикселя. При 256-цветном изображении каждый пиксель в той части файла, где содержатся собственно данные растрового массива, описывается одним байтом (8 бит). Это описание пикселя не представляет значений цветов RGB, а слу­жит указателем для входа в таблицу цветов файла. Таким обра­зом, если в качестве первого значения цвета RGB в таблице цве­тов файла BMP хранится R/G/B = 255/0/0, то значению пикселя 0 в растровом массиве будет поставлен в соответствие яр­ко-красный цвет. Значения пикселей хранятся в порядке их рас­положения слева направо, начиная (как правило) с нижней строки изображения. Таким образом, в 256-цветном ВМР-файле первый байт данных растрового массива представляет собой ин­декс для цвета пикселя, находящегося в нижнем левом углу изо­бражения; второй байт представляет индекс для цвета соседнего справа пикселя и т. д.

Файлы BMP с глубиной 16 и 24 бит/пиксель не имеют таб­лиц цветов; в этих файлах значения пикселей растрового масси­ва непосредственно характеризуют значения цветов RGB.

PCX — первый стандартный формат файлов для растровой графики в компьютерах систем IBM PC. На этот формат, приме­нявшийся в программе Paintbrush фирмы ZSoft, в начале 1980-х гг. фирмой Microsoft была приобретена лицензия, затем он распространялся вместе с изделиями Microsoft, в дальнейшем был преобразован в Windows Paintbrush и начал распространять­ся с Windows. Хотя область применения этого популярного фор­мата сокращается, файлы формата PCX, которые легко узнать по расширению рсх, все же распространены и сегодня.

Файлы PCX включают три части — заголовок PCX, данные растрового массива, факультативную таблицу цветов. Заголовок (128-байтовый) содержит несколько полей данных, в том числе о размере изображения и количестве бит для кодирования цветовой информации каждого пикселя. Информация растрового массива сжимается с использованием метода RLE; факультативная таблица цветов в конце файла содержит 256 значений цветов RGB, определяющих цвета изображения. Кодирование цвета каждого пикселя в современных изображениях PCX может произ­водиться с глубиной 1, 4, 8 или 24 бит.

TIFF (Tagged Image File Format — формат файлов изображения, снабженных тегами). Если PCX — один из самых простых для декодирования форматов растровой графики, то TIFF — один из самых сложных. Файлы TIFF имеют расширение tif. Каждый файл начинается 8-байтовым заголовком файла изобра­жения (IFH), важнейший элемент которого — каталог файла изображения (Image File DirectoryIFD) — служит указателем к структуре данных. IFD представляет собой таблицу для иден­тификации одной или нескольких порций данных переменной длины, называемых тегами, хранящими информацию об изобра­жении. В спецификации формата файлов TIFF определено более 70 различных типов тегов. Например, тег, хранящий информа­цию о ширине изображения в пикселях, или о его высоте, или таблица цветов (при необходимости), или сами данные растро­вого массива. Изображение, закодированное в файле TIFF, пол­ностью определяется его тегами, и этот формат файла легко рас­ширяется, поскольку для придания файлу дополнительных свойств достаточно определить дополнительные типы тегов. Данные растрового массива в файле TIFF могут сжиматься с использованием любого из нескольких методов, поэтому в надеж­ной программе для чтения файлов TIFF должны быть средства распаковки RLE, LZW и несколько других.

GIF (Graphics Interchange Format — формат обмена графическими данными, произносится «джиф») разработан компанией CompuServe (расширение — gif). Структура файла зависит от версии   GIF-спецификации   (распространены   две   версии   — GIF 87а и GIF89a). Независимо от номера версии файл GIF начинается с 13-байтового заголовка, содержащего сигнатуру, которая идентифицирует этот файл в качестве GIF-файла, номер версии GIF и другую информацию. Если файл хранит только одно изображение, вслед за заголовком обычно располагается общая  таблица   цветов,   определяющая   палитру  изображения. Если в файле хранится несколько изображений, то вместо общей  таблицы цветов каждое изображение сопровождается ло­жной таблицей цветов.

Основные достоинства GIF заключаются в широком распространении этого формата и его компактности. Но ему присущи два достаточно серьезных недостатка. Один из них состоит том, что в изображениях, хранящихся в виде GIF-файла, не мо­жет быть использовано более 256 цветов. Второй, возможно, еще более серьезный, заключается в том, что разработчики про­грамм, использующие в них форматы GIF, должны иметь ли­цензионное соглашение с CompuServe и вносить плату за каж­дый экземпляр программы; такая ценовая политика была приня­та CompuServe после того, как Unisys объявила, что начнет добиваться соблюдения своих прав собственности и потребовала от тех, кто пользуется алгоритмом сжатия LZW, вносить лицен­зионные платежи. Возникшее в результате этого запутанное юридическое положение тормозит внедрение в свои графиче­ские программы средств для работы с файлами GIF.

PNG (Portable Network Graphic — переносимый сетевой фор­мат, произносится «пинг», расширение — .png) был разработан для замены GIF, чтобы обойти юридические препятствия, стоя­щие на пути использования GIF-файлов. PNG унаследовал мно­гие возможности GIF и, кроме того, позволяет хранить изобра­жения с истинными цветами. Еще более важно, что он сжимает информацию растрового массива в соответствии с вариантом пользующегося высокой репутацией алгоритма сжатия LZ77 (предшественника LZW), которым любой может пользоваться бесплатно.

 

JPEG (произносится «джейпег», расширение —   .jpg) был разработан компанией C-Cube Microsystems как эффективный метод хранения изображений с большой глубиной цвета, например, получаемых при сканировании фотографий с многочисленными едва уловимыми оттенками цвета. Используется алгоритм JPEG-сжатия с потерями информации. Таблица 3.2 иллюстрирует размеры и цветовую глубину файлов, которые соответствуют различным форматам при сохранении исходного изображения размером в 1 Мбайт.

 

Векторные форматы

 

Файлы векторного формата содержат описания рисунков в наборе команд для построения простейших графических объек­тов (линий, окружностей, прямоугольников, дуг и т. д.). Кроме того, в этих файлах хранится некоторая дополнительная инфор­мация. Различные векторные форматы отличаются набором ко­манд и способом их кодирования.

WMF (Windows Metafile) — формат, доступный большинству приложений Windows, так или иначе связанными с векторной гра­фикой, служит для передачи векторов через буфер обмена (Clipboard). Однако может искажать цвет, не сохранять ряд пара­метров, которые могут быть присвоены объектам в различных век­торных редакторах, не воспринимается программами Macintosh.

EPS (Encapsulated PostScript) — упрощенный PostScript, мо­жет использоваться большинством настольных издательских систем и векторных программ, некоторыми растровыми про­граммами. Однако не может содержать в одном файле более од­ной страницы, не сохраняет ряд установок для принтера. Как и в файлы печати PostScript, в EPS записывают конечный вариант Работы, хотя такие программы как Adobe Illustrator, Photoshop и Macromedia FreeHand могут использовать его как рабочий.

DXF (Drawing Interchange Format) используется всеми программами САПР, многими векторными редакторами, некоторыми издательскими системами.

CGM (Computer Graphics Metafile) используется в программах редактирования векторных рисунков, САПР и издательских системах.

SVG  (Scalable Vector Graphics) — расширение языка XML (разработанное  Консорциумом  Всемирной  Паутины),  предназначенное для того, чтобы описать двумерную векторную графику как статическую, так и анимированную. SVG допускает три типа графических объектов:  1) векторные графические формы (например контуры, состоящие из прямых и кривых линий и областей, ограниченных ими); 2) растровая графика, представляющая оцифрованные образы; 3) текст. Тип файла — svg, svgz.

Источниками статических изображений традиционно явля­лись растровые сканеры, а в последнее время широко использу­ются цифровые фотокамеры [25]. Рассмотрим основные характе­ристики изображений, процессов их создания и обработки.

 

Оптическое разрешение  

 

Оптическое разрешение измеряется в пикселях на дюйм (ppipixels per inch), иногда dpi — точки на дюйм, однако по­нятие точка означает элемент, не имеющий конкретной формы, ими меряется разрешение печатающих устройств. Сканеры и растровые графические файлы оперируют пикселями, имею­щими форму квадрата.

Сканеры. Оптическое разрешение показывает, сколько пик­селей сканер может считать на квадратный дюйм. Его значение записывается так: 300 x 300, 300 x 600, 600 х 1200 и т. п. Первое число говорит о количестве считывающих информацию датчи­ков, именно на него стоит обращать внимание, хотя часто про­изводители и продавцы любят указывать, в качестве разрешения, что-нибудь вроде 4000, 4500 dpi. Это интерполированное разрешение, которое является свойством не сканера, а его поддерживающей программы. Качество изображений, получен­ных таким образом зависит не только от сканера, но и от качест­ва функций интерполяции, реализованных в программе [25].

Интерполяция — способ увеличения (уменьшения) раз­мера или резолюции файла посредством программы. При умень­шении данные отбрасываются, при увеличении — программа их вычисляет. Таким образом, сильно увеличенные картинки вы­глядят размытыми или зубчатыми (в зависимости от способа ин­терполяции).

Известны три основных способа интерполяции:

Nearest Neighbor — для добавляемого пикселя берется зна­чение соседнего с ним;   

Bilinear — выбирается среднее цветовое значение пикселей с каждой стороны от создаваемого;

Bicubic — усредняется значение группы не только непо­средственно граничащих, но и всех соседних пикселей. Ка­кой именно диапазон пикселей выбирается для усреднения и по какому алгоритму это усреднение происходит — этим отличаются способы бикубической интерполяции в разных программах.

Наконец, важным свойством относительно новых образцов сканеров является сканирование в 32-битном (и более) режиме. Здесь цвет одного пикселя описывается не в 24 битах стандарт­ного RGB — один из 16 700 000 оттенков, а большим количест­вом информации, что позволяет передать большее количество уникальных оттенков. Затем Photoshop, или другая программа в соответствии с установками генерации 24-битного RGB, произ­водит цветовую интерполяцию — усредняет оттенки. Результат получается лучше, хотя это видно только на калиброванных мо­ниторах и на качественных распечатках.

Цифровые камеры. Качество цифровой камеры зависит от не­скольких факторов, включая оптическое качество линзы, матри­цы съемки изображения, алгоритмов сжатия и других компонен­тов. Однако, самый важный детерминант качества изображе­ния — разрешающая способность матрицы ПЗС: чем больше элементов, тем выше разрешающая способность, и таким обра­зом, больше подробностей может быть зафиксировано.

В 1997 г. типичная разрешающая способность цифровых ка­мер была 640 х 480 пикселей, год спустя появились «камеры ме­гапикселя», что подразумевало, что за те же деньги можно было приобрести модель на 1024 х 768 или даже 1280 х 960. К началу 1999 г. разрешающие способности дошли до 1536 х 1024 и к середине этого же года был преодолен барьер 2 мегапикселей с по­явлением разрешающей способности 1800 х 1200 = 2,16 млн пик­селей. Год спустя — барьер 3 мегапикселей (2048x1536 = 3,15 млн пикселей). Первая камера с 4 мегапикселями появилась в середине 2001 г., обеспечивая 2240 х 1860 = 4,16 млн пик­селей

Однако даже датчик Foveon ХЗ (4096 х 4096 = 16,8 млн пикселей) [25] все еще не перекрывает возможностей обычной фотопленки. поскольку   высококачественные  линзы   объективов обеспечивают разрешение по крайней мере 200 точек на 1 мм, негативная пленка стандарта 100ASA шириной 35 мм и размером кадра 24 х 36 мм обеспечит разрешение 24 х 200 х 36 х 200 -= 34,56 млн пикселей, что все еще недостижимо для цифровых камер.

 

Разрядная глубина

 

Разрядная (битовая, цветовая) глубина сканера характеризует количество информации, содержащейся в одном пикселе выход­ного образа. Битовую глубину изображения часто называют цве­товой разрешающей способностью. Она измеряется в битах на пиксел (bit per pixel, bpp). Так, если речь идет об иллюстрации, имеющей в каждом пикселе по 8 бит цветовой информации, то ее цветовая разрешающая способность будет 8 bpp, что дает 28 = 256 доступных для 8-битового изображения цветов.

Самый простой сканер (черно-белый сканер на 1 бит) ис­пользует для представления каждого пикселя «1» или «0». Чтобы воспроизвести полутона между черным и белым, сканер должен иметь хотя бы 4 бита (для 16 = 24 полутонов) или 8 бит (для 256 = 28 полутонов) на каждый пиксель.

Самые современные цветовые сканеры поддерживают не ме­нее 24 бит, что означает фиксацию 8 бит информации по каждому из первичных цветов (красный, синий, зеленый). Устройство на 24 бита может теоретически фиксировать более чем 16 млн раз­личных цветов, хотя практически это число намного меньше. Это почти фотографическое качество, и упоминается поэтому обычно как «полноцветное» сканирование («true colour» scanning).

На принципе 8-битного цвета основана широко использо­вавшаяся в первой половине 90-х и применяемая в Internet даже сегодня цветовая модель Index Color. Она работает на основе создания палитры цветов. Все оттенки в файле делятся на 256 возможных вариантов, каждому из которых присваивается номер. Далее, на основе получившейся палитры цветов строится таблица, где каждому номеру ячейки приписывается цветовой оттенок в значениях RGB.

К форматам файлов, использующим только индексирован­ные палитры относятся распространенный в прошлом на РС формат программы PaintPCX, а также не потерявший и в наши дни своей актуальности GIF. Некоторые форматы как, на пример тот же GIF или PNG, позволяют делать палитры на основе произвольного количества цветов (до 256).

До появления 8-битового цвета из-за малых мощностей персональных компьютеров тех времен использовались палитры из 16 цветов (4 bpp), 4 цветов (2 bpp) и самая первая компьютерная графика была однобитовая — 2 цвета. Однобитовые изображе­ния   называемые Bitmap или, иногда, Lineart, используются и сегодня там, где не требуются цвето – тоновые переходы. Равный по размеру Bitmap-файл в 24 раза меньше, чем файл RGB, и кроме того, очень хорошо сжимается.

 

Динамический диапазон

 

Динамический диапазон по своей сути подобен разрядной глубине, которая описывает цветовой диапазон сканера, и опре­деляется как функционированием АЦП сканера, так и чистотой света, качеством цветных фильтров и уровнем любых помех в системе.

Динамический диапазон измеряется в шкале от 0,0 (абсо­лютно белый) до 4,0 (абсолютно черный), и единственное число, данное для конкретного сканера, говорит, сколько оттенков мо­дуль может различить. Большинство цветных планшетных ска­неров с трудом воспринимает тонкие различия между темными и светлыми цветами на обоих концах диапазона и имеет дина­мический диапазон около 2,4. Это, конечно, немного, но обыч­но достаточно для проектов, где идеальный цвет не самоцель. Для получения большего динамического диапазона следует ис­пользовать цветовой планшетный сканер высшего качества с увеличенной разрядной глубиной и улучшенной оптикой. Эти высокопроизводительные модули обычно обеспечивают динами­ческий диапазон между 2,8 и 3,2 и хорошо подходят для боль­шинства приложений, требующих высококачественный цвет (например, офсетная печать). Наиболее близко к пределу динамического диапазона позволяют подойти барабанные сканеры, часто обеспечивающие значения от 3,0 до 3,8.

Теоретически сканер на 24 бита предлагает диапазон 8 бит (256 уровней) для каждого первичного цвета, и различие между двумя  из 256 уровней обычно не воспринимается человеческим глазом. К сожалению, наименьшие из значащих битов теряются в шуме, в то время как любые тональные исправления после сканирования еще более сужают диапазон. Именно поэтому лучше всего предварительно устанавливать любые исправления яркости и цвета на уровне драйвера сканера перед заключительным сканированием. Более дорогие сканеры с глубиной в 30 или 36 битов имеют намного более широкий диапазон, предлагая более детализированные оттенки, и разрешают пользователю делать тональные исправления, заканчивающиеся приличным 24-битовым изображением. Сканер на 30 битов принимает 10 битов данных на каждый цвет, в то время как сканеры на 36 би­тов — по 12 битов. Драйвер сканера позволяет пользователю вы­брать, какие именно 24 бита из исходных 30 или 36 битов сохра­нить, а какие — нет. Эта настройка делается путем изменения «кривой цветовой гаммы» (Gamma Curve), и доступна при обра­щении к Настройке тонов (Tonal Adjustment control)драй­вера TWAIN.

 

Режимы сканирования

 

Среди разнообразия методов представления изображений в ЭВМ наиболее распространенными являются:

•  штриховая графика (line art);

•  полутоновое изображение (grayscale);

•  цветное изображение (colour).

Штриховая графика — наиболее простой формат. Так как сохраняется только черно-белая информация (в компьютере представлен черный цвет как «1» и белый как «0»), требуется только 1 бит данных, чтобы сохранить каждую точку сканиро­ванного изображения. Штриховая графика наиболее подходит при сканировании чертежей или текста.

Полутоновое изображение. В то время как компьютеры могут сохранять и выдавать изображения в полутонах, большинство принтеров не способно печатать различные оттенки серых цве­тов. Они применяют метод, названный обработкой полутонов, используя точечный растр, имитирующий полутоновую инфор­мацию.

Изображения в оттенках серого — наиболее простой метод сохранения графики в компьютере. Человек может различить не более 255 различных оттенков серого, что требует единственного байта данных со значением от 0 до 255. Данный тип изображения составляет эквивалент черно-белой фотографии.

Полноцветные изображения — наиболее объемные и самые сохраняемые и обрабатываемые в ПК, используют 24 бита (по 8 на каждый из основных цветов), чтобы представить полный цветовой спектр.

 

3 4. Программные средства обработки изображений

 

Драйвер TWAIN

 

Изготовители сканеров создали специальный стандарт TWAIN (Toolkit Without Anlnteresting Name), обеспечивающий взаимодействие сканеров практически с любым прикладным ПО — пакетами обработки изображений наподобие Adobe PhotoShop, настольными издательскими системами или про­граммами распознавания символов. Этот стандарт совместно разработан Hewlett-Packard, Kodak, Aldus, Logitech и Caere и оп­ределяет, каким образом устройства получения изображений (сканеры, цифровые камеры и др.) передают данные приклад­ным программам. Стандарт TWAIN позволяет приложениям работать с устройствами получения изображений, «не зная» что-либо об устройстве непосредственно. Если устройство со­вместимо с TWAIN, и приложение — тоже, они должны рабо­тать вместе независимо от того, было ли программное обеспече­ние куплено вместе с устройством или нет.

Разрешается одновременно подсоединять к ПК более чем одно TWAIN-совместимое устройство, как показано на рис. 3.10. Каждое из устройств при этом имеет свою собственную копию модуля TWAIN. Это обеспечивает конечного пользователя воз­можностью выбора, которое именно из устройств TWAIN следу­ет использовать в течение сеанса. Допустим, пользователь выбрал опцию Импорт (Acquire) в меню Файл такого приложения, как PhotoShop,    и    в    нем    —    соответствующий    источник (Source) – twain. При этом будет активизирован TWAIN, который загрузит собственный драйвер устройства, не покидая основное приложение. После сканирования драйвер автоматиче­ски закрывается, оставляя полученное изображение открытым в основном приложении.

 

 

Все большее число изготовителей предоставляют сканеры с двумя драйверами TWAIN. Первый — основной, упрощенный драйвер, предназначенный для новичков, где сканер управляется в основном парой кнопок. Кнопка Предварительное сканирование (Preview) приводит к появлению «грубого» изображения в окне предварительного сканирования. Сканер в ускоренном режиме захватывает изображение низкого разрешения (около 20—35 dpi), чтобы пользователь мог выбрать только необходи­мый фрагмент. Здесь область сканирования может быть уточне­на, а также откорректированы глубина цвета и разрешение. Поч­ти все современные настольные модели предоставляют возмож­ность предварительной цветокоррекции.

Когда пользователь полностью удовлетворен результатами предварительного сканирования, он может нажать кнопку Ска­нирование (Scan), чтобы инициализировать окончательное ска­нирование.

Для более «продвинутых» пользователей может использоваться кнопка Advanced Scanning Options где-нибудь на пер­вом драйвере. Она запускает второй драйвер, предлагающий бо­лее высокие возможности полной настройки изображения (яр­кость, контраст, цвет и исправление цветовой гаммы). Это позволяет корректировать определенные диапазоны тональных значений, как в целом, так и в каждом из первичных цветов.

Разберем некоторые функции программы сканирования на примере утилиты MiraScan, поставляемой совместно с USB-сканерами (рис 3.11).

 Выбор типа изображения — отраженный   (Reflective) или проходящий свет;

 

 Туре (цветовая   модель) — позволяет выбрать цветовую модель. Обычно в таких списках присутствуют (Line art) только черный и белый, Grayscale 8 bit, 12 bit — 256 и больше градаций серого, Millions of Colors (стандартный RGB). Иногда у планшетных и всегда у профессиональных ска­неров есть опция сканирования в режиме CMYK. В CMYK име­ет смысл сканировать, только когда есть много картинок, предназначенных для цветоделения, или же из-за большого количе­ства файлов есть опасность, что какая-то из RGB-картинок будет забыта;

 Resolution  (разрешение) — для  Internet сканируется с разрешением   72   dpi   —   экранная   резолюция;   для   газе ты — около  130—180 dpi (зависит от линиатуры растра, с которой печатается газета); для струйного принтера (обычная бумага) —  150—200 dpi; для качественной печати в типографии на   лазерном   или   струйном   принтере   (хорошая   бумага) 300 dpi. В режиме Bitmap имеет смысл сканировать от 300 dpi и выше (до 1200) в зависимости от желаемого качества и раз­мера файла;

 

 

Scaling (масштабирование) — увеличение используют как правило, для слайдов. На планшетных сканерах со спе­циальными крышками слайды сканировать не стоит, для слай­дов существуют специальные сканеры. Auto Contrast & Color Correction — функции автоматической подстройки контраста и цветокоррекции. Используются, когда качество необязательно. Если нужна оптимальная цветопередача, все корректируется «на глаз»;

Brightness (яркость) — темные и средние изображения, предназначенные для полиграфии можно слегка осветлять, так как при печати они будут несколько затемнены;

Descreen (убрать муар) — опция, позволяющая эффек­тивно убирать муар. Действует на основе определения линиатуры растра ранее напечатанной в типографии и теперь ска­нируемой картинки (Descreen не применяется к продукции струйных принтеров, так как их распечатки не имеют растровой сетки);

Муар (Screen, Moire) — паразитные узоры, образуемые на­ложением растровых сеток. Заметны при использовании линиатуры растра в 150 lpi и ниже;

Линиатура растра (Screen frequency) — плотность рядов точек (линий) в растровой сетке. Измеряется в линиях на дюйм — lpi (lines per inch);

Полутоновой растр (Halftone screen) — сетка точек на печатной плате. На каждой плате сетка повернута под своим углом, где точки больше, там большее сгущение цвета. Наложение всех плат CMYK дает полноцветную картинку.

Чтобы пользоваться Descreen, не обязательно точно знать линиатуру растра, достаточно выставить тип сканируемого оригинала: газета (Newspaper), 85 lpi, журнал (Magazine),  133 lpi журнал высокого полиграфического качества (Art   Magazine)

150 lpi Custom. Надо отметить, что газеты могут печататься с натурой в диапазоне 60—85 lpi, журналы — 150—175 lpi, репродукции в книгах печатают на 175—200 lpi. Растр 175 lpi мало различим на глаз, растровая сетка в 200 lpi и выше уже не видна. Выбор линиатуры при растрировании оператором фотонабора обусловлен качеством бумаги и типом печатной машины, на ко­торых будет выводиться издание. В диалоговом окне опции Custom можно выставить точное количество линий на дюйм, если оно известно;

 

 Filter – здесь, обычно, присутствуют фильтры размытия и усиления контраста. У всех типов сканеров есть свойство усиливать уже имеющиеся на изображении помехи: пыль, цара­пины, муар. Особенно важно предохранять от повреждений и запыления слайды, так как они будут увеличиваться — хранить и транспортировать их в антистатических конвертах.

 

 

Цветовая калибровке

 

Одна из особенностей использования настольного сканера — отсканированное изображение может выглядеть по-разному на экране и в отпечатанной форме и все это будет отличаться и от оригинала. Решение этой проблемы — система цветовой калибровки (или установка соответствия цветов). Такое про­граммное обеспечение действительно ценно для сканирования высококачественных изображений (прозрачные пленки, печат­ные издания профессионального качества и т. д.), где необходи­мо выполнять строгие качественные стандарты. Однако для большинства людей, использующих настольный сканер, не столь же важен точный цвет, как приятный цвет. Сложности человече­ского восприятия цветов сделали калибровку цветов большой проблемой, вследствие чего есть несколько различных подходов, как разработанных, так и перспективных.

Одна из самых полных систем — система управления цветом, разработанная Kodak (colour management systemCMS), который  использует различные  цветовые  профили,  соответствующие каждому устройству: сканеру, монитору, принтеру  в системе, чтобы передавать и стандартизировать цвета. Элементы СМS встраиваются в Adobe  PhotoShop  и другое программное обеспечение, и CMS постепенно становится наиболее распространенным средством, применяемым для подготовки графиче­ских иллюстраций и других задач, которые связаны с согласова­нием цветов.

Другие системы были разработаны изготовителями сканеров и прикладными программистами. Эти системы также базируют­ся на цветовых профилях различных устройств, которые будут использоваться для сканирования, редактирова­ния и вывода заключительного изображения. В таких системах используется исправление на основе вывода, при этом сканируется и выводится стандартно калиброванное эталонное изображение, и затем вносятся изменения в цветовые профили, чтобы стан­дартизировать цвета. Это — менее сложный процесс и, вероятно, не соответствует потребностям пользователей, которые хотят непрерывно перекалибровывать свои системы для оптимальных результатов.

 

 

 

Фоторедактирование (ретуширование)

 

Когда сканер осуществляет фиксацию цветного изображе­ния, это — часто только начало технологического процесса. Бу­дучи однажды оцифрованной, фотография может быть представ­лена в разных видах и комбинироваться с другой информацией в растровом редакторе или пакете раскрашивания (рис. 3.12).

В подготовке печатного издания очень редко используются «сырые» изображения — черты моделей «очищаются»: сглажива­ние морщин, окраска глаз, «причесывание» волос и пр. Обычно фоторетушер пытается сделать одну из двух вещей — или замена некоторых элементов изображения (например, изменение цвета чьих-то волос), или сотворение чего-то нереального и фантасти­ческого. В любом случае, вмешательство ретушера не должно обнаруживаться визуально.

Большинство этих видов работ может быть произведено, на­пример, используя Adobe PhotoShop, но даже самые простые программы раскрашивания позволяют проделать подобные из­менения. Однако, хотя многое может быть выполнено с помо­щью более дешевых пакетов наподобие PaintShop Pro или PC Paintbrush, программы, подобные PhotoShop, Xres и Corel PhotoPaint, позволяют намного проще достигнуть сложных эф­фектов (рис. 3.13).

 

 

Возможности редактора MS Paint вкратце отображены на рис. 3.12. Не ограничиваясь этим, рассмотрим также редакторы, входящие в комплект приложений Linux-Unix/KDE [22].

 

 

 

 

Графический редактор OpenOffice.org Draw

 

Работа с векторной графикой. OpenOfTice.org Draw является объектно-ориентированной программой для создания векторной графики. Объектами могут быть линии, прямоугольники, трех­мерные цилиндры или любые многоугольники. Для всех объек­тов уже установлены параметры, такие как размер, цвет поверх­ностей и контуров, привязанные файлы и т. д. Все параметры могут быть изменены (рис. 3.14).

Благодаря векторной технологии можно вращать объекты в любом направлении и изменять их размер. Объекты можно дви­гать и частично совмещать, так как все они контролируются ин­дивидуально.

Работа с трехмерными объектами. Пользователь не ограни­чен двухмерностью при использовании OpenOffice.org Draw, Можно создавать кубы, сферы, цилиндры и другие трехмерные объекты, вращать их и даже подсвечивать с помощью различных эффектов. Используя эти параметры, можно быстро создавать презентации

.

Работа с диаграммами. OpenOffice.org Draw объектно-ориен­тирован. Это дает возможность создавать прямоугольники, со­держащие текст и связанные друг с другом. При перемещении фигур связи автоматически сохраняются, что упрощает рисова­ние и работу с презентациями и диаграммами. Связи размеща­ются между точками соединения, что заметно облегчает созда­ние технических рисунков с текстовыми пояснениями.

Рисование. При обычном рисовании используются прямые, простые линии, кривые Безье и различные виды прямоугольни­ков и прочих геометрических фигур. Трехмерные параметры мо­гут быть использованы для создания трехмерных объектов, на­пример кубов, сфер и торов. Также возможно вращение двумер­ных форм в трехмерном измерении. Выбирая цвет с растровой структурой, перспективой и освещением, можно создать трехмер­ные объекты для приглашений, брошюр и визитных карточек.

Для вставки в рисунки дополнительных элементов используй­те коллекцию картинок, находящихся в галерее. Не имеет значе­ния, состоят ли графические объекты из векторов или точек.

Экспорт. OpenOffice.org Draw может использоваться для соз­дания кнопок и значков для Web-страниц и экспорта их в фор­матах gif, jpg, png И др.

Создать. Программа предлагает ряд подсказок для создания собственных рисунков. Можно определить сетку, к которой объ­ект будет привязан во время создания или перемещения или временно привязать несколько новых объектов к границам и уз­лам уже существующих объектов. Размер объекта можно изме­нить в любое время с помощью ввода новых размеров в окне диалога Параметры.

Интегрировать. Предусмотрена возможность импорта тек­стов, таблиц, диаграмм, формул из других программных модулей OpenOffice.org в рисунок.

 

Графический редактор GIMP

 

GIMP (Gnu Image Manipulation Program). Как следует из на­звания, это программа для манипуляций изображениями. По возможностям GIMP схож с редакторами PaintShop Pro и Adobe PhotoShop.

При первом запуске производится начальная настройка про­граммы. Далее появляется основная панель инструментов, в верхней части которой расположено меню (рис. 3.15).

 

 

Выбрав в меню Файл команды Новый или Открыть, можно создать новое изображение или загрузить его с диска.

В окне редактирования можно вызвать меню с помощью правой кнопки мыши (рис. 3.16).

 

 

 

 

 

 

 

 

3.5. Цифровое видео

 

Основные принципы

 

Известны три формы кодирования сигнала телевидения:

•  система PAL (использует большинство стран Европы);

•  Франция, Россия и некоторые восточно-европейские стра­ны используют SECAM, который отличается от системы PAL только в тонкостях, однако этого достаточно, чтобы они были несовместимыми;

•  США и Япония используют систему NTSC.

В системе PAL (Phase-Alternation-Line, чередование строк) каждый законченный кадр заполняется построчно, сверху до­низу.

В Европе используется переменный электрический ток с частотой 50 Гц, и система PAL связана с этим — здесь выполня­ется 50 проходов экрана каждую секунду. Требуется два прохода, чтобы нарисовать полный кадр, так что частота кадров равна 25 кадров/с. Нечетные строки выводятся при первом проходе, четные — на втором. Этот метод называется чересстрочная развертка (interlaced), в противоположность чему изобра­жение на компьютерном мониторе, создаваемое за один проход, известно как без чередования строк (progressive).

Компьютеры, наоборот, имеют дело с информацией в циф­ровой форме. Чтобы хранить визуальную информацию в цифро­вой форме, аналоговый видеосигнал должен быть переведен в цифровой эквивалент с использованием аналого-цифро­вого преобразователя-конвертера (ADC, или АЦП). Процесс преобразования известен как осуществление оцифров­ки, или видеозахват. Так как компьютеры имеют дело с цифровой графической информацией, никакая другая специаль­ная обработка данных не требуется, чтобы в дальнейшем выво­дить это цифровое видео на компьютерный монитор. Однако чтобы отобразить цифровое видео на обычном телевизоре, об­ратный конвертер — цифроаналоговый (DAC или ЦАП), должен преобразовать двоичную информацию в аналоговый сиг­нал. Кроме того, источником видеоинформации в цифровой форме являются цифровые видеокамеры.

 

Цифровые видеокамеры

 

Начиная с введения Sony в 1995 г. формата DV и последующего почти повсеместного принятия интерфейса IEEE 1394 цифровые видеокамеры стали почти столь же свойственным ПЭВМ атрибутом, как мышь. Массовый пользователь получил доступ к технологии, которая позволила создавать в цифровом формате видеоматериал, качество которого далеко превосходило возможности аналоговых средств, доступных в то время — напо­добие Hi-8 и S-VHS — и превращать его в профессионально вы­глядящее домашнее кино на настольном ПК.

Запись и сохранение видео и аудио в цифровой форме устра­няют возможности для целого диапазона ошибок в изображении и звуке почти тем же образом, как музыкальные компакт-диски изменили к лучшему записи на виниловых дисках (LP). Кассеты цифрового видео не могут быть прочитаны на видеомагнитофо­нах, однако любая цифровая видеокамера имеет обычные, ана­логовые AV-гнезда выхода, что позволяет записанный материал передать на видеомагнитофон либо на телевизор. Поскольку ин­терфейс IEEE 1394 стал вездесущим в области видео потребите­ля, он позволяет передавать видеосигнал от одной цифровой ка­меры к другой, к цифровому видеомагнитофону или на ПЭВМ. В процессе своего развития цифровые видеокамеры все чаще снабжаются аналоговыми звуковыми и видеовходами, позволяя копирование старых записей в аналоговых форматах VHS или 8 мм в формат цифрового видео, и таким образом обеспечивая как архивирование без потерь, так и доступ к мощным средствам редактирования цифрового видео.

Светочувствительная матрица (прибор с заря­довой связью — ПЗС) цифровой видеокамеры — обычно размером в '/4" — собирает и обрабатывает свет, приходящий от объектива, и преобразует его в электрический сигнал. В то время как видеокамеры среднего качества оборудованы единственной ПЗС, модели более высокого ряда используют три матрицы. В этом случае объектив содержит призму, которая расщепляет поступающий свет на три основных цвета, причем каждый по­ступает на отдельную матрицу. Результатом является высокока­чественные цветопередача и качество изображения, заметно лучшие чем для моделей с единственной ПЗС, хотя и при сущест­венной дополнительной стоимости.

Число пикселей, которые составляют матрицу, может изменяться от одной модели к другой, однако большее число пикселей не обязательно означает лучшее качество изображения. Матрицы в цифровых видеокамерах Canon, например, обычно имеют намного более низкое число пикселей, чем в моделях JVC или Panasonic, но все же способны к достижению превосходных результатов.

Современные камеры имеют мощные способности «наезда» (трансфокатор), реализованные как путем оптического измене­ния масштаба изображения (обычно 10-х или более), так и цифрового (до 200-х). Конечно, в этих случаях изображения стано­вятся высокозернистыми и их стабильность становится сущест­венной проблемой. Используются два варианта видоискателя: традиционный окуляр и выдвижной цветовой жидкокристалли­ческий экран, который дополнительно может быть сенсорным, срабатывающим от прикосновения и позволяющим осуществ­лять цифровое увеличение объекта, указанного прикосновением на экране.

Большинство потребительских цифровых камер продаются как единые решения для видео, фото и даже МРЗ и электрон­ной почты. Большинство из них, однако, может захватить фото только с разрешением, характерным для цифрового видео (720 х 576 пикселей, что не дотягивает даже до 1 мегапикселя), которое приходится уменьшать до 640 х 480, чтобы сохранить правильное отношение размеров экрана (3 :4). Некоторые ви­деокамеры обладают более высоким разрешением для фото, но часто при этом используется интерполяция, чтобы достигнуть Указанного разрешения. Видеокамеры на 1,5 мегапикселей по­зволят получить разрешение в 1360 х 1020 для фото. Способ­ность делать запись фотоснимков — также все более популяр­ная особенность профессиональных цифровых видеокамер, не­которые из которых даже способны к настройке датчиков изображения к удобному для компьютера формату сборки картины, что оптимизировано для записи фотоизображения.

Цифровые камеры обеспечивают цифровую или оптическую стабилизацию изображения, чтобы уменьшить колебание, которое неизбежно сопровождает ручную съемку. Цифровая стабилизация изображения (Digital image stabilisationDIS) очень эффективна, но имеет тенденцию уменьшать разрешение картины, поскольку активно используется для записи образа меньший процент датчиков (остальные заняты стабилизационной обра­боткой). Оптическая стабилизация изображения (Optical imagе stabilisationOIS) использует призму, которая компенсирует колебания регулировкой пути светового луча, проходящего через систему линз камеры. Оба метода достигают примерно одной и той же степени видимой стабильности, но OIS, возможно, луч­ше, так как не уменьшает разрешение.

 

Форматы цифрового видео

 

VCD. Формат VideoCD был создан, чтобы обеспечить диало­говую среду, которая была бы недорога для копирования, под­держивала полный экран и видео полного движения и функцио­нировала бы в широком диапазоне различных платформ ПЭВМ, телевидения, игровых приставок или мультимедийного оборудо­вания.

В середине 1993 г. Philips, Sony, Matsushita и JVC согласова­ли спецификации VideoCD, позже получившие известность как «Белая Книга». Стандарт использует определения, описанные в стандартах «красной» (CD-DA) и «желтой» (CD-ROM) книг и вводит дополнительную гибкость, чтобы учесть защиту автор­ского права, вставки библиографической информации, абстракт­ных данных, компьютерных программ, обеспечить диалоговый контроль в течение воспроизведения.

Формат стал чрезвычайно популярным в Азии, и начиная с середины 1990-х гг. почти все гонконгские фильмы были дос­тупны на VCD, а по сделанной в конце тысячелетия оценке, только в Китае ежегодно производились более чем 2 млн плейе­ров VCD. Формат никогда не завоевывал популярность на запа­де и остается малоизвестным в Северной Америке и Европе.

VCD использует CD-ROM XA Mode 2, чтобы делать запись первой дорожки диска (Track 1), который содержит файловую структуру ISO 9660 и информационную область. Файловая сис­тема ISO может также включать расширения Joliet, чтобы под­держивать длинные имена файлов Windows.

VCD 1.1 поддерживает понятие выбираемых треков, но толь­ко в VCD 2.0 версии (1995 г.) поддерживалась полная интерак­тивность через дистанционное управление. VCD 2.0 позволяет организовать до 98 треков, каждый из которых может быть ин­дексирован в 99 сценах. Каждый трек может содержать и воспроизводить сцены, которые могут быть видео, звуковыми или фотоизображениями. В основном этот формат можно трактовать как Audio CD с дополнением видео или фотофрагментами и средствами навигации по содержанию.

Стандарт поддерживает обратную совместимость, так что версия 1.1 VCD работает в плейерах версии 2.0. VCD имеет вместимость до 74/80 минут (на носителе 650/700 Мбайт соответственно) видео полного движения, сопровождаемого стереозвуком. Используется технология сжатия MPEG-1 для обеспечения ка­чества видео, эквивалентного пленке VHS или аудио CD-DA. Таблица 3.3 содержит ключевые характеристики вариантов VCD-стандарта.

 

 

SVCD. Выпущенный в 1998 г. консорциумом, который вклю­чал Philips, Sony, Matsushita и JVC, формат «VCD Высшего каче­ства» (SuperVCD) — впоследствии стандартизированный как ISO IEC 62107 — является естественным развитием стандарта VCD. Основное различие в том, что для видеопотока используется ко­дирование MPEG-2 (вместо MPEG-1), которое обеспечивает бо­лее высокое разрешение и скорость, а также поддерживает суб­титры и переменную скорость видеопотока. Как последствие, CD способен к показу в 2 раза более четких видеоизображе­нии, чем его предшественник, за счет уменьшенной вместимости (35 и 80 мин на диск в зависимости от средней используемой оптовой скорости).

Формат имеет обширную поддержку субтитров и режима караоке. Видеопоток SVCD может содержать до четырех независимых каналов субтитров для различных языков, которые накладываются на видеоизображения в процессе воспроизведения и могут подключаться или удаляться по желанию. Так как субтит­ры сохранены как битовая графика, они не привязаны к како­му-то специфическому набору символов. Наконец, SVCD стан­дарт поддерживает гиперсвязи типа HTML, позволяет подклю­чать фотографии, автоматическое проигрывание слайдов ц музыкальных фрагментов, поддерживает многоуровневые иерар­хические меню и оглавления (индексацию). Характеристики формата приведены в табл. 3.4.

 

XVCD и XSVCD (extended VCD и extended SVCD - расши­рения соответственно) являются неофициальными вариантами стандартов VCD и SVCD, предназначенными, чтобы достигнуть улучшенного качества изображения, например, увеличивая бито­вую скорость (битрейт) в соответствии с более быстрой способно­стью передачи данных современными накопителями CD-ROM-XSVCD работает на принципах, обычных для уровня DVD, что обеспечивает скорость, близкую к DVD-Video (до 9,8 Мбит/с — поддерживает полное разрешение DVD в дополнение к обычному SVCD 480x576/480x480).

DivX. Формат DivX базируется на видеотехнологии MPEG-4 с дополнением звукового потока МРЗ. Поскольку сжатый в формате DivX кинофильм составляет от 10 до 20 % размера оригинала DVD (обычно 5 Гбайт), 80—90 минутное DVD-кино занимает приблизительно 650 Мбайт в разрешении 640 х 480 — фильм Гол­ливуда может вообще поместиться на единственном CD-ROM. Единственным весомым недостатком является то, что не предусмотрено возможности развернуть изображение формата 16 : 9 до 4 : 3. Просмотр осуществляется на широко распространенном Windows Media Player (Microsoft) с небольшими добавлениями.

К концу 2001 г. появилась новая версия DivX — проект с от­крытыми исходными программами кодека, известный как «Project Mayo» или как «OpenDivX» или «DivX для Windows/Linux/Mac». В отличие от оригинала DivX, OpenDivX не имеет ничего общего с Microsoft. Однако, подобно его предше­ственнику, он также базируется на формате сжатия MPEG-4.

Формат DV. Panasonic и Sony были первыми, кто использо­вал стандарт цифрового видео на своих видеокамерах, и хотя он и не был первоначально предназначен для профессионального использования, обе компании впоследствии объявили их собст­венные расширения для стандарта — Panasonic DVCPRO в 1995 г., a SonyDVCAM в 1996 г. Однако оба изготовителя придерживались формата MiniDV для производимого цифрового оборудования.

Формат DV использует пленку с металло-оксидным напыле­нием ширины 1/4" (6,35 мм), способную к записи до 3 часов ви­део в стандартном режиме (standard play, SP) на кассете, которая имеет размеры 125 х 78 х 14,6 мм.

Технически DV использует дискретное косинус-преобразование, используя процесс с тремя стадиями. Первая стадия использует DCT-сжатие, удаляющую информацию, которая не может замечена человеческим глазом. При этом в каждом пикселе отделяют цветовую и яркостную информацию, что сокращает данные на одну треть. Затем сигнал RGB преобразуется в YUVY для яркости и U и V для цвета, по формуле YUV 4 : 2 : 2. Затем  цифровой видеокодек оптимизирует формулу к YUV 4 : 2 : 0, связывая цветовую информацию от смежных пикселей в блоки 4x4. Далее, система аппаратного сжатия, размещенная на камере, сжимает видео с использование алгоритма подобного M-JPEG.                                                                      

Система DV отличается способностью записи различных частей каждого кадра с различной степенью сжатия. Так, синее небо в фоне изображения может быть сжато, скажем, к 25 : 1, в то время как лес на переднем плане, который нуждается в большем ко­личестве деталей, только до 7 : 1. Этим способом цифровое видео может оптимизировать видеоструктуру потока кадров. Наоборот M-JPEG должен иметь установленную норму сжатия для видео в целом и не может разумно регулировать сжатие каждого изобра­жения. Кроме того, также используется техника, известная как адаптивное межстрочное сжатие, которое заключается в том, что перекрывающиеся строки кадра (как в PAL, например) соединяются в одну, если различие между ними невелико. В теории это означает, что сцены с меньшим количеством движения обраба­тываются лучше, чем быстрые сцены. Номинальный поток данных DV — 25 Мбит/с, который увеличивается до 36 Мбит/с с учетом аудио и различных средств управления данными и кор­рекции ошибок.

Mini-DV (мини-цифровое видео). Главное преимущество формата MiniDV состоит в том, что лента, являющаяся 1/12 от размера стандартной пленки VHS, позволяет сделать запись 1 часа в формате SP или до 90 мин более низкого качества выхода в «долгоиграющем режиме» (long play, LP) при горизонтальном разрешении до 500 линий. Видеокамеры этого формата являются часто достаточно маленькими, чтобы удобно размещаться в ла­дони руки.

Digital8. Введенный в начале 1999 г., формат видеокамеры Sony Digital8 может рассматриваться как шаг между 8 мм или Hi-8 и MiniDV. Запись здесь производится почти в том же са­мом качестве как для MiniDV, но на ленты 8 мм и Hi-8, которые имеют размер 1/4 размера VHS и вместимость до 1 часа. Формат — хороший выбор для тех, кто переходит к цифровой видео­камере, так как видеокамера Digital8 может также воспроизво­дить старые записи аналоговых видео на 8 мм и Hi-8;

MICROMV. В 2001 г. Sony объявила ряд цифровых видеока­мер MICROMV, использующих формат сжатия MPEG-2 при записи сигналов качества DV на ленты, размер которых составляет 70 % от кассет MiniDV. При скорости в 12 Мбит/с ультракомпактный формат MICROMV имеет битовую скорость, вполовину меньшую, чем для miniDV, что делает редактирование видео на ПЭВМ намного менее ресурсопоглощающей задачей.

Форматы DVD. Фирма Hitachi объявила первую цифровую видеокамеру, способную к записи на носитель DVD (в данном случае это был DVD-RAM) летом 2000 г., что было очередным шагом в движении видеоприложений к области ПЭВМ. Важное преимущество формата DVD — способность к прямой выборке видео и непосредственному переходу к определенным сценам видеозаписи, экономя время и ресурсы, затрачиваемые на запись/редактирование.

DVD видео. Видео DVD обычно кодируются в формате MPEG-2. MPEG-2 предлагает более высокую степень сжатия, чем MPEG-1, и приводит к намного более четкому и чистому изображению (табл. 3.5). Раскодированный из MPEG-2 видео­сигнал обычно использует 480 горизонтальных строк в кадре (или 720 х 480 пикселей) по сравнению с 425 строками для CD-видео и 250—270 строками для VHS-видео.

 

Переменная битовая скорость (VBR) позволяет достичь более высокого качества изображения и более низкой средней скорости передачи  информации  в битах,  при  этом  используется больше данных для кодирования тех частей видеопоследовательности, которые более сложны и плохо сжимаются. При использовании постоянной битовой скорости (CBR) скорость передачи данных должна быть достаточно высокой, чтобы одинаково хо­рошо кодировать все сцены видео.

Ранние диски DVD-ROM использовали два метода для запи­си MPEG-2 видео:

•  аналоговый оверлей  (наложение видеоизображений или просто оверлей);

•  метод  встраивания   VGA, иногда упоминаемый как VideoInlay.

Оба метода отображают видео в окне или полном экране, но они реализуют различные подходы. Videolnlay использует графи­ческий адаптер PC, чтобы масштабировать видео и вывести его на монитор. Оверлейные платы обеспечивают масштабирование собственными аппаратными средствами и выводят видео само­стоятельно, встраивая его в графический выводом, который при­ходит от платы VGA. При использовании этих плат дополни­тельный кабель соединяет выход адаптера VGA с вводом на пла­те декодера.

Главный недостаток подхода VideoInlay — нагрузка на систе­му. При проходе сцен, закодированных с высокой скоростью пе­редачи информации, метод VideoInlay может перегрузить инфор­мацией старые, более медленные адаптеры дисплея, что может потребовать сокращения горизонтальной разрешающей способ­ности для получения приемлемого изображения.

Требуя немного большего количества усилий по установке и конфигурированию, платы наложения видеоизображений требу­ют меньше системных ресурсов и допускают более широкое раз­нообразие аппаратных средств. В то время как видеовывод мо­жет быть менее четким, чем в случае встраивания VGA, наложе­ние видеоизображений имеет то преимущество, что может дать приличное качество фактически с любыми видеоплатами.

Односторонний (DVD 5) диск может вместить ти­пичный кинофильм, длительность которого составляет в сред­нем 133 минуты. MPEG-2 кодирование использует сжатие с потерями, которое удаляет избыточную информацию (например, неизменяющиеся области изображения) и информацию, кото­рая не воспринимается человеческим глазом. Выходной видео­сигнал, особенно когда он сложен или содержит быстрые изме­нения, может иногда включать визуальные недостатки в зависи­мости   от  качества  обработки   и   коэффициента  сжатия. При использовании сжатия MPEG-2 полномасштабное изображение требует минимальную скорость передачи данных 3500 кбит/с. Звуковое окружение — центральный, левые, правые, лево-тыловые и право-тыловые каналы, плюс ненаправленный басовый громкоговоритель — требует дополнительно еще 384 кбит/с. Если учесть добавочную память для фонограмм дублирования а различных языках и титров, необходимо увеличение скоро­сти до 4,692 кбит/с (минимум 4 Мбит/с, требуемых для высоко – качественных результатов). Окончательный итог — требование размера памяти в 4,68 Гбайт.

Более высокие скорости передачи данных могут привести к повышению качества, почти неотличимому от оригинала, при скоростях более чем 6 Мбит/с. С развитием MPEG-технологий сжатия лучшее качество достигается при более низких скоро­стях. Кроме того, DVD-видео обычно поддерживают множест­венные коэффициенты сжатия, позволяя при просмотре выбрать по меньшей мере из пары широкоэкранных форматов (например 16:9 или более обычного 4 : 3). Кроме того, DVD-видео также обычно позволяет выбрать один из восьми языков и предостав­ляет 32 различных набора субтитров.

Двухслойный (DVD 9) диск. Здесь вместимость увели­чивается до 240 мин. Двусторонний однослойный диск (D VD 10) будет вмещать немного больше (около 266 ми­нут), но он должен быть перевернут, чтобы была доступна вторая сторона. Многие производители видео DVD используют двусто­ронние диски, помещая версию, отформатированную для нор­мального телевидения или монитора с экраном 4 : 3 на одной стороне и широкоэкранную версию, отформатированную для эк­рана 16: 9 — на другой.

Существуют два способа записи двухслойных DVD — па­раллельный проход дорожки (Parallel track path — РТР) и противоположный проход дорожки (Opposite track path — ОТР). В дисках РТР оба слоя считываются от внутренней части Диска к внешней, тогда как в диске ОТР сначала считывается внешний слой от внутренней части к внешней, а затем — внутренний слой обратным ходом. Это позволяет дисководу читать оба слоя почти непрерывно, с коротким перерывом, чтобы перефокусировать линзу лазера.

В 1998 г. Цифровой Видео Экспресс (DVE) — партнерство жду одним из крупнейших американских розничных продавцов электроники, Circuit City, и видной Лос-анджелесской юридической фирмой — объявил альтернативный формат DVD-видео, использующий подход «оплата за использование» при прп смотре фильмов, и быстро получил поддержку таких ведущих студий, как Disney, Paramount, Universal и MGM.                 

Региональное кодирование. Поскольку обычно выход фильма на экраны не является одновременным (фильм может выйти на видео в США, когда только выходит на экраны в Европе) киностудии хотят контролировать выпуск видеокопий в раз­личных странах. Поэтому потребовалось, чтобы стандарт DVD включал коды, которые могут предотвратить воспроизведение некоторых дисков в определенных географических областях (регионах). Каждый видеопроигрыватель получает код для ре­гиона, в котором он продан. Это означает, что диски, куплен­ные в одной стране, не могут считываться на плейерах, куп­ленных в другой стране.

Региональные коды являются дополнительными для изгото­вителя диска и отсутствие кода означает отсутствие региональ­ных ограничений. Это — не система кодирования, а только ин­формационный байт, обозначающий восемь различных регио­нов, который проверяется при проигрывании диска (табл. 3.6).

В сводной табл. 3.7 приводятся основные технические характеристики цифровых видеоформатов, перечисленных выше.

 

 

Видеоредактирование

 

Известны два типа видеоредактирования. Первый заключа­ется в редактировании при переписывании одной ленты на дру­гую и называется линейным редактированием.  Второй требует, чтобы  редактируемые  видеопоследовательности  были  вначале помещены на жесткий диск, затем отредактированы и возвраще­ны на пленку. Этот метод известен как нелинейное редактирова­ние (НЛР, NLE). Для нелинейного редактирования видеопереда­чи карты захвата переводят видео в цифровую форму на жесткий Диск ПЭВМ и при этом функция редактирования выполняется полностью на ПЭВМ, почти так же, как редактируется документ текстовом редакторе.  Носители  могут быть дублированы  и многократно использоваться по мере необходимости, сцены могут быт перестроены, добавлены или удалены в любое время в течение процесса редактирования (рис. 3.17, 3.18).

Широкое распространение НЛР началось в начале 1990-х гг.,  что связано с появлением все более вместительных, быстрых и дешевых НЖМД, с разработкой все более мощного программного обеспечения редактирования видео, получило мощную под­держку в 1995 г. с появлением формата DV Sony.

 

 

Хотя видеоформат MPEG-2 уже нашел широкое использова­ние в распространении информации, проблемы возникли в про­изводстве и при редактировании видео. Если необходимо сделать вырезку из потока данных, то может оказаться, что В-кадры или Р – кадры (см. ниже, п. 3.6) будут отделены от структур, к которым они относятся, и их соответствие нарушится. В результате видео в формате MPEG-2 необходимо восстанавливать в несжатую (исходную) форму перед редактированием, или же редактирование видео приходится производить в несжатой форме и откладывать MPFG-кодирование на самый последний момент. Так, в частности строится работа с программным продуктом Pinnacle Studio 9 (рис 3 18, 3.19). Здесь последовательно осуществляется видеозахват (рис 3.18), разбиение на сиены (материал сохраняется в слабосжатой форме формата AVI — при качестве DV — 3,8 Мбайт/с, пои качестве MPEG — 0,76 Мбайт/с), затем происходит форми­рование  выходного  видеопотока,   который   выводится   в  файл MPEG-1, MPEG-2 или какого-либо другого формата.

Некоторые изготовители пытались разработать системы MPEG-2, допускающие редактирование без ограничений. Напри­мер, компания Sony предложила специальный формат под назва­нием SX для профессиональных цифровых видеокамер и видео­магнитофонов, который использует очень короткие GOP, или группы кадров (четыре или меньше кадров), включающие только I- и Р – кадры (см. ниже, п. 3.6). При этом скорость передачи со­ставляет 18 Мбит/с, что эквивалентно сжатию 10 : 1, но качество изображения сопоставимо с M-JPEG при 5:1. Позже фирма Pinnacle разработала методы редактирования коротких GOP IP-кадров MPEG-2 с использованием своей карты видеозахвата DC 1000 в системе Adobe Premier.

 

 

Pinnacle утверждает, что ее карта требует только половину полосы пропускания эквивалентного M-JPEG видео, позволяя одновременно обрабатывать два видео­потока на дешевой платформе с небольшим объемом памяти.

Сталкиваясь с проблемой редактирования MPEG-2, изгото­вители видеопродукции, входящие в комитет ProMPEG, предло­жили профессиональную версию, известную как MPEG-2 4:2:2 Profile@Main Level (см. ниже, табл. 3.8). Здесь используются только I-кадры, что дает более высокие скорости передачи дан­ных — до 50 Мбит/с. Формат был одобрен Европейским радиове­щательным союзом (European Broadcasting Union) и его амери­канским партнером — Обществом инженеров телевидения и ки­нематографии (Society of Motion Picture Television EngineersSMPTE), для широкого диапазона применений в производстве видеопродукции. Хотя здесь и нет никакого преимущества в ши­рине полосы пропускания перед М-JPEG, а преобразование по­токов к другим форматам MPEG-2 и обратно требует перекоди­рования, эта версия MPEG-2 (только I-кадры) — согласованный стандарт, позволяющий передавать материал между различными системами. По контрасту NLE-системы, которые используют

M-JPEG, имеют тенденцию использовать немного различающие­ся форматы файлов, что делает их несовместимыми.

Несмотря на все их преимущества, файлы в сжатых форма­тах остаются все еще довольно большими и поэтому нуждаются в быстром интерфейсе для их передачи между видеокамерой и ПЭВМ. К счастью, решение этой проблемы существовало уже в течение ряда лет. Технология интерфейса FireWire была первоначально предложена Apple Computer, но затем утверждена как международный стандарт IEEE 1394.

Когда этот интерфейс был разработан, цифровое видео было в младенческом состоянии и еще не существовало массовой по­требности в такой быстрой технологии интерфейса, поэтому в течение нескольких лет интерфейс FireWire был решением про­блемы,  которая еще не возникла.  Первоначально представляя сектор высоких технологий цифрового видеорынка, системы  редактирования IEEE  1394 постепенно следовали за цифровыми видеокамерами в сферу потребителя. Так как FireWire передает видеоданные в сжатом цифровом состоянии, копии, сделанные в этом методе, теоретически должны быть точными клонами оригинала. В большинстве случаев это верно. Однако, поскольку процесс  копирования  осуществляет эффективную  маскировку ошибок,  он  не  использует никаких  методов  их исправления.

Следовательно, есть вероятность возникновения провалов (дефектов) для видео и звуковых данных приблизительно после полдюжины поколений копирования. Поэтому предпочтитель­ная практика состоит в том, чтобы везде, где это возможно, из­бегать делать копии с копий.

К концу 1998 г. системы редактирования, основанные на IEEE 1394, оставались дорогими и ориентировались в основном на профессиональный сектор рынка. Однако с увеличением мас­штаба работ с аудио, видео и другими, более общими типами дан­ных, производители ПЭВМ в сотрудничестве с такими потребите­лями, как Sony, стали включать интерфейсы IEEE 1394 в системы ПЭВМ, чтобы обеспечить связь, управление и обмен цифровыми, звуковыми и видеоданными. Пока еще не вездесущий, интерфейс стал намного более обычным к началу 2000-х гг., не в последнюю очередь благодаря усилиям специалистов Creative, которые фактически обеспечили «свободный» адаптер FireWire для линейки звуковых карт Audigy, введенных в конце 2001 г.

 

3.6. Элементы технологии алгоритмов MPEG

 

Стандарт MPEG-2

 

Рассмотрим в качестве примера стандарт MPEG-2, который состоит из трех основных частей: системной, видео и звуковой.

Системная часть описывает форматы кодирования для мультиплексирования звуковой, видео- и другой информации, рассматривает вопросы комбинирования одного или более потоков данных в один или множество потоков, пригодных для хра­нения или передачи.

Системное кодирование в соответствии с синтаксическими и семантическими налагаемыми данным стандартом, обеспечивает необходимую и достаточную информацию, чтобы синхронизировать декодирование без переполнения или «недополнения» буферов декодера при различных условиях приема восстановления потоков.

Таким образом, системный уровень выполняет пять основных функций:

•  синхронизацию нескольких сжатых потоков при воспроизведении;

•  объединение нескольких сжатых потоков в единый поток;

•  инициализацию для начала воспроизведения;

•  обслуживание буфера;

•  определение временной шкалы.

Видеочасть стандарта описывает кодированный битовый поток для высококачественного цифрового видео. MPEG-2 яв­ляется совместимым расширением MPEG-1, он поддерживает чересстрочный видеоформат и содержит средства для поддержки ТВЧ (телевидение высокой четкости).

Стандарт MPEG-2 определяется в терминах расширяемых профилей, каждый из которых, являясь частным случаем стан­дарта, имеет черты, необходимые всем классам приложений.

Иерархические масштабируемые профили могут поддержи­вать такие приложения, как совместимое наземное многопро­граммное ТВ (ТВЧ), пакетные сетевые видеосистемы, обратную совместимость с другими стандартами (MPEG-1 и Н.261) и при­ложениями, использующими многоуровневое кодирование.

Звуковая часть стандарта MPEG-2 определяет кодирование многоканального звука. MPEG-2 поддерживает до пяти полных широкополосных каналов плюс дополнительный низкочастот­ный канал и (или) до семи многоязычных комментаторских ка­налов. Он также расширяет возможности кодирования моно-и стереозвуковых сигналов в MPEG-1 за счет использования поло­винных частот дискретизации (16; 22,05 и 24 кГц) для улучше­ния качества при скоростях передачи 64 кбит/с и ниже.

JPEG-форматы (M-JPEG Cine Pack) основаны на сжатии каж­дого кадра из видеопоследовательности. Этот подход получил на­звание intraframe compression (внутрикадровое сжатие). Стандарт MPEG использует как intraframe, так и interframe compression (межкадровое сжатие). При межкадровом сжатии задаются опор­ные кадры, а последующие и предыдущие вычисляются на их ос­нове. Поэтому межкадровая схема позволяет достичь большего сжатия — не надо хранить каждый кадр, запоминаются только различия между кадрами.

Стандарт MPEG-2 не регламентирует методы сжатия видео сигнала, а только определяет, как должен выглядеть битовый по­ток кодированного видеосигнала, поэтому конкретные алгоритмы являются коммерческой тайной фирм—производителей оборудования. Однако существуют общие принципы, и процесс сжатия цифрового видеосигнала может быть разбит на ряд по­следовательных операций (рис. 3.20):

• преобразование аналогового сигнала в цифровую форму;

• предварительная обработка;

• дискретное косинусное преобразование;

• квантование;

• кодирование.

После аналого-цифрового преобразователя (АЦП) произво­дится предварительная обработка сигнала, которая включает в себя следующие преобразования.

1. Удаление избыточной информации. Например, если фон изображения состоит из идентичных символов (пикселей), то совершенно не обязательно их все передавать. Достаточно опи­сать один пиксель и послать его с сообщением о том, как часто и где он повторяется в изображении.

2. Если исходное изображение передается в виде чересстроч­ных полей, то они преобразуются в кадры с прогрессивной раз­верткой.

3. Сигналы цветности (RGB) преобразуются в цветоразностные сигналы U и V и сигнал яркости Y.

4.  Изображение достраивается до  кратного   16   количества пикселей по строкам и столбцам, чтобы обеспечить разбиение изображения на целое число макроблоков.

 

 

5. Производится преобразование из формата    цветности 4 : 4 : 4 в формат 4:2:2 (горизонтальная передискретизация цветоразностных компонентов) или 4:2:0 (горизонтальная и вертикальная передискретизация цветоразностных компонентов).

Квантование. Изображение разбивается на последователь­ность макроблоков, каждый из которых состоит из шести блоков по 8 х 8 пикселей:

•  четыре образуют матрицу 16 х 16 и несут информацию о яркости;

•  по одному — определяют цветоразностные компоненты U и V, которые соответствуют области изображения, покры­ваемой матрицей 16 х 16 пикселей.

Стандарт предусматривает два формата цветности, каждому из которых соответствует свой порядок блоков в макроблоке (рис. 3.21):

•  4:2:0 — макроблок состоит из шести блоков — четыре блока яркости YD и два блока цветности CR И Св;

•  4:4:4 — макроблок состоит из двенадцати блоков. Он со­держит четыре блока YD, четыре CR и четыре Св.

Производится разбиение потока кадров изображения по ти­пам, для них находятся векторы движения, которые необходимы для повышения предсказуемости величин элементов изображе­ния. Векторы движения обеспечивают компенсацию перемещений в прошедших и последующих кадрах.

 

Компенсация движения применяется при предсказании текущего кадра на основе предыдущих и интерполяционного предсказания на основе прошедших и последующих изображений. Векторы движения определяются для каждой зоны изображения с размерами

16 х 16 пикселей, т. е. для макроблоков. В большинстве случаев видиеопоследовательности содержат избыточность в двух направлениях — временном и пространственном. Главное статистическое свойство, на котором основана аппаратура сжатия, — меж­элементная корреляция, включающая предположение о корре­лированности последовательных кадров видеоданных. Таким образом, значения отдельных пикселей изображения могут быть предсказаны либо по значениям ближайших пикселей внутри одного кадра (внутрикадровое кодирование), либо по значениям пикселей, расположенных в ближайших кадрах (межкадровое кодирование и компенсация перемещения).

Кодирование. В некоторых случаях, например, при смене ви­деосцены в видеопоследовательности, временная корреляция между ближайшими кадрами очень низка. В таких случаях ре­шающую роль в достижении эффективного сжатия видеоинфор­мации играет внутрикадровая корреляция, т. е. пространствен­ная корреляция пикселей изображения. Однако, если корреля­ция между последовательными кадрами видеоданных высока, то в случае, когда два последовательных кадра имеют схожее или одинаковое содержание, желательно применение межкадровой корреляции пикселей с временным предсказанием. На практике для достижения высокого коэффициента сжатия видеоинформа­ции используется комбинация из двух подходов.

Стандарт MPEG-2 определяет три типа кадров, для каждого из которых предусмотрен свой вид кодирования:

• опорные кадры, так называемые I-кадры (Intra Frames), ко­торые являются основными и кодируются без обращения к другим кадрам, т. е. с использованием информации только этого кадра. Вид кодирования — внутрикадровый, обеспе­чивающий умеренное сжатие. Все остальные кадры анали­зируются процессором, который сравнивает их с опорными, а также между собой;

• Р – кадры (Predicted) — закодированные относительно предыдущих I- или Р- кадров. Кодирование Р- кадров выполняют с использованием алгоритмов компенсации движения и

предсказанием «вперед» по предшествующим I- и Р- кадрам. Они сжаты в 3 раза сильнее, чем I-кадры, и служат опорными для последующих Р- и В-кадров. Компенсация движения, применяемая к макроблокам Р- кадров, вырабатывает два вида информации: векторы движения (разница между базовыми и кодированными макроблоками) и зна­чения ошибок (разница между предсказанными величина­ми и действительными результатами). Если макроблок в Р- кадре не может быть описан с использованием компен­сации движения, что случается при появлении некоторого неизвестного объекта, то он кодируется тем же способом что и макроблок в I -кадре;

• В-кадры (Bidirectionally Predicted) — закодированные отно­сительно предыдущих и последующих кадров, т. е. с двуна­правленным предсказанием и компенсацией движения.

В-кадры имеют наибольшее сжатие.

Таким образом, в стандарте MPEG-2 используются три вида кодирования: внутрикадровое, межкадровое «вперед» с компен­сацией движения, межкадровое двунаправленное, также с ком­пенсацией движения.

Полученные кадры объединяются в группы последова­тельных кадров (GOPgroup of pictures). Каждая последо­вательность начинается с I-кадра и состоит из переменного числа Р- и В-кадров. В описаниях алгоритмов кодирования MPEG и его реализаций не содержится никакой информации относительно методов выделения I-, Р- и В-кадров в видеопоследовательности. В начале сцены должен стоять I-кадр, в конце — Р-кадр. Увеличивать долю В-кадров можно только в рамках одной сце­ны, иначе возникнут большие ошибки предсказания и компен­сации движения. Поскольку типичная длительность группы кад­ров (во временном представлении — примерно 0,5 с) значитель­но меньше характерного расстояния между границами сцен, то в большинстве случаев жесткое задание структуры группы кадров не приводит к существенным визуальным ошибкам из-за того, что смена сцен попадает внутрь группы кадров.

На рис. 3.17 изображен порядок кодирования I-, Р- и В-кадров. Верхний ряд кадров демонстрирует исходную последова­тельность на входе кодера, нижний — после кодирования. Основными параметрами GOP являются длина последовательности N и порядок чередования Р- кадров. Например, в последователь­ности кадров, представленной на рис. 3.22, N= 7, М- 3, т. е. ка­ждый третий кадр в последовательности — типа Р.

 

 

Из применявшихся до сих пор форматов групп для часто­ты полей 30 Гц типичной была последовательность IBBPBBPBBPBBP/BBIBBP... с N=13 (для первой группы) и M=3, в которой группу составляют 15 кадров, начинающихся с двух В-кадров и одного I-кадра, и каждые два В-кадра переме­жаются с Р- кадром. Для частоты 25 Гц типичной является такая же последовательность, нос с N=12 и М=3. Такой выбор сделан для того, чтобы обеспечить одновременное выполнение требова­нии максимального сжатия и произвольного доступа к любому из кадров последовательности. Между тем именно В-кадры обеспечивают максимальное сжатие, и если бы удалось поднять долю В- кадров в группе, а I-кадрами обозначить границы сцен, то эффективность сжатия была бы увеличена.

Для блоков с использованием компенсации движения находятся разностные ошибки предсказания движения.

Следует упомянуть еще две возможности MPEG-алгоритмов.

Это Motion Estimation (ME, в свободном переводе — оценка перемещений) и Spatial Redundancy (SR — пространственная избыточность). ME — метод, по которому реализуется вычисление Р- и В- кадров по опорным кадрам. Первым шагом в ME является разбиение кадров на блоки 16x16 пикселей. Далее блоки одного кадра сравниваются с соответствующими блоками другого кадра и, если они изменяют положение от кадра к кадру, их перемеще­ние описывается векторами движения, которые и записываются в MPEG-поток.

На следующем этапе кодирования применяется метод про­странственной избыточности, позволяющий еще более сократить объем данных, описывая разность между соответствующими бло­ками. Используя дискретное косинус-преобразова­ние, блоки подразделяются на подблоки 8x8 для отслеживания изменения цвета и яркости.

Очевидно, что чем больше коэффициент сжатия, тем хуже качество. Коэффициент сжатия — это численное выражение со­отношения между объемом сжатого и исходного видеоматериала. Для MPEG сейчас стандартом считается соотношение 200:1, при этом сохраняется неплохое качество видео. Различные вари­анты Motion-JPEG работают с коэффициентами от 5:1 до 100 : 1, хотя даже при уровне в 20 : 1 уже трудно добиться нормального качества изображения. Кроме того, качество видео за­висит не только от алгоритма сжатия (MPEG или Motion-JPEG), но и от параметров цифровой видеоплаты, конфигурации ком­пьютера, а также от программного обеспечения.

Профили MPEG. Как уже отмечалось выше, в стандарте при­меняется концепция профилей и уровней (табл. 3.8).

Стандарт предусматривает пять профилей:

•  простой (simple) — для реализации видеопотока без В-кадров;

•  главный (main) — для реализации всех уровней, но без масштабируемости;

•  масштабируемый по отношению сигнал/шум (SNR scalable);

•  пространственно масштабируемый (spatiallyscalable);

•  профессиональный (professional 4:2:2), пространственно масштабируемый и масштабируемый по отношению сиг­нал/шум.

Каждый из этих профилей можно подразделить на четыре уровня:

•  низкий (LL);

•  главный (ML);

• высокий 1440 (Н1440);

•  высокий (HL).

 

Каждому профилю соответствуют определенные наборы on раций по сжатию данных.

В   профиле   простой   используется наименьшее число операций: компенсация движения и гибридное дискретное косинусное преобразование (ДКП, DCT).

Профиль главный содержит дополнительную операцию — предсказание по двум направлениям, что улучшает каче­ство изображения.

Профиль масштабируемый по отношению сиг­нал/шум предусматривает повышение устойчивости системы при снижении отношения сигнал/шум. Поток видеоданных раз­деляют на две части: базовый поток и расширенный поток. Пер­вый несет наиболее значимую информацию, второй — дополни­тельную.

Профиль пространственно масштабируемый содержит все операции предыдущего профиля и новую — разде­ление потока видеоданных по критерию четкости телевизионно­го изображения. Этот профиль обеспечивает переходы между ныне действующим стандартом и ТВЧ.

В рассмотренных четырех профилях при кодировании сигна­лов яркости и цветности используют формат представления ви­деоданных 4:2:0, где число отсчетов сигналов цветности по сравнению с сигналом яркости снижено в 2 раза по горизонталь­ному и вертикальному направлениям.

В профиле профессиональный используют формат 4 : 2 : 2, т. е. число отсчетов сигналов цветности в вертикальном направлении такое же, как и в яркостном сигнале. Кроме этого, предусматривается возможность масштабирования — простран­ственного и по отношению сигнал/шум.

Уровню низкий соответствует недавно введенный класс качества телевизионного изображения — ТВ ограниченной чет­кости. Уровню главный соответствует ТВ обычной четкости. Уровни высокий 1440 и высокий предусмотрены для ТВЧ, где использовано разложение на 1152 активные строки.

Каждый из этих профилей и уровней определяет предельные значения основных параметров битового потока, как это показа­но в табл. 3.8.

Сочетание профиля и уровня образует некоторое подмножество общего стандарта MPEG-2 применительно к различным задачам, для решения которых он предназначен. Такое сочетание принято обозначать аббревиатурой. Например, MP@ML означает главный профиль и главный уровень. Профессиональный профиль в сочетании с главным уровнем (422P@ML) послужил основой принятого в 1996 г. подмножества стандарта MPEG-2 для цифрового телевещания.

 

Описательный мультимедиа-стандарт MPEG-7

 

Спецификация разработана на пути использования методов и достижений интеллектуальных информационных систем в мультимедийных приложениях. Попытки решения данной зада­чи известны уже давно — ситуационное моделирование (Ю. И. Клыков, 1974 г.), RX-коды (1969 г.), проект PIPS (Pattern information processing system), программная среда и язык распо­знавания и генерации сцен NAL1GNative language interprator of graphics (Япония, 1980 г.) и др.

MPEG-7 формально называется «Мультимедиа-интерфейс для описания содержимого» (Multimedia Content Description Interface), он имеет целью стандартизовать описание мультиме­дийного материала, поддерживающего некоторый уровень ин­терпретации смысла информации, которая может быть передана для обработки ЭВМ. Стандарт MPEG-7 не ориентирован на ка­кое-то конкретное приложение, он стандартизует некоторые элементы, которые рассчитаны на поддержку как можно более широкого круга приложений. Следовательно, средства MPEG-7 позволят формировать описания (т. е. наборы схем описания и соответствующих дескрипторов по желанию пользователя) мате­риала, который может содержать:

•  информацию, описывающую процессы создания и произ­водства материала (указатель, заголовок, короткометраж­ный игровой фильм);

•  информацию,  относящуюся  к использованию  материала (указатели авторского права, история использования, рас­писание вещания);

• информацию о характеристиках записи материала (формат записи, кодирование);

• структурную информацию о пространственных, временных или пространственно-временных  компонентах  материалаазрезы сцены, сегментация областей, отслеживание перемещения областей);

•  информацию о характеристиках материала нижнего уровня (цвета, текстуры, тембры звука, описание мелодии);

•  концептуальную информацию о реальном содержании материала (объекты и события, взаимодействие объектов);

•  информацию о том, как эффективно просматривать материал (конспекты, вариации, пространственные и частотные субдиапазоны и пр.);

• информацию о собрании объектов;

• информацию о взаимодействии пользователя с материалом (предпочтения пользователя, история использования).

MPEG-7 сконструирован так, чтобы учесть все подходы учитывающие требования основных стандартов, таких, как SMPTE Metadata Dictionary, Dublin Силие, EBU P/Meta и TV Anytime. Эти стандарты ориентированы на специфические приложения и области применения, в то время как MPEG-7 пы­тается быть как можно более универсальным. MPEG-7 исполь­зует также схему XML в качестве языка выбора текстуального представления описания материала. Главными элементами стан­дарта MPEG-7 являются (рис. 3.23):

•  дескрипторы (D) — представление характеристик, ко­торые определяют синтаксис и семантику представления каждой из характеристик;

•  схемы описания DS (description scheme), которые спе­цифицируют структуру и семантику взаимодействия между компонентами. Эти компоненты могут быть дескриптора­ми и схемами описания;

 

• язык    описания    определений    DDL   (description definition language), позволяющий создавать новые схемы описания и, возможно, дескрипторы, и обеспечивающий расширение и модификацию существующих схем описания;

•  системные средства служат для поддержки мультип­лексирования описаний, синхронизации описаний и мате­риала, механизмов передачи, кодовых представлений (как текстуальных, так и двоичных форматов) для эффективной записи и передачи, управления и защиты интеллектуальной собственности в описаниях MPEG-7.

В принципе, любой тип аудиовизуального материала может быть получен с помощью любой разновидности материала в за­просе. Это означает, например, что видеоматериал может быть запрошен с помощью видео, музыки, голоса и т. д. Ниже приве­дены примеры запросов:

• проиграйте несколько нот на клавиатуре, и вы получите список музыкальных отрывков, сходных с проигранной мелодией, или изображений, соответствую­щих некоторым образом нотам, например, в эмоциональ­ном плане;

• нарисуйте несколько линий на экране, и вы найдете набор изображений, содержащих похожие графи­ческие образы, логотипы, идеограммы;

• определите объекты, включая цветовые пят­на или текстуры, и вы получите образцы, среди кото­рых сможете выбрать интересующие вас объекты;

• опишите действия и получите список сценариев, со­держащих эти действия;

• используя фрагмент голоса Паваротти, полу­чите список его записей, видеоклипов, где Паваротти поет, и графический материал, имеющий отношение к этому певцу.

Рассмотрим  пример описания визуального материала (рис.3.24,а) графовыми представлениями (рис. 3.24, б).

Этот пример демонстрирует момент футбольного матча. Определены два видеосегмента, одна стационарная область и три движущиеся области. Граф, описывающий структуру материала, показан на рис. 3.24, б.

Видсосегмент Dribble&Kick (Обводка и удар) включает в себя вратаря и игрока. Мяч остается рядом с игроком, движущимся к вратарю. Игрок появляется справа от вратаря.

Видеосегмент гол включает в себя те же подвижные области юс стационарную область ворота. В этой части последовательности игрок находится слева от вратаря, а мяч движется к воротам.

Этот простой пример иллюстрирует гибкость данного вида педставления. Заметим, что это описание в основном представ­ляется структурным, так как отношения, специфицированные ребрами графа, являются чисто физическими, а узлы представ­ляют объекты, которые описываются данными о создании, ин­формацией об использовании и медиаданными, а также деск­рипторами низкого уровня, такими, как цвет, форма, движение. В семантически явном виде доступна только информация из текстовой аннотации (где могут быть специфицированы ключе­вые слова мяч, игрок или вратарь).

 

 

 

3.7. Трехмерная компьютерная графика

 

Трехмерная компьютерная графика (3D computer graphics) — разновидность графического искусства, использующего для соз­дания своих произведений компьютеры и соответствующее про­граммное обеспечение (рис. 3.25). Термин может относиться как к процессу создания таких графических образов, так и к науч­ным исследованиям в области компьютерных графических мето­дов и соответствующих технологий.

Трехмерная компьютерная графика отличается от двумерной тем, что трехмерное представление геометрических данных сохраняется в компьютере с целью их обработки для построения и выдачи двумерных изображений, которые могут либо просматриваться в реальном масштабе времени, либо запоминаться для последующего использования.

Трехмерное моделирование — процесс подготовки геометрических данных для трехмерной компьютерной графики — сходно искусством скульптуры, тогда как искусство двумерной графи­ки походит на рисование. Несмотря на эти различия трехмерная компьютерная графика использует многие из тех же самых алгоритмов, что и двумерная.

 

 

 

В программном обеспечении машинной графики часто исче­зает грань между двух- и трехмерным, поскольку двумерные приложения могут использовать трехмерные алгоритмы, чтобы, например, описать эффекты освещения, и наоборот.

Как правило, процесс построения трехмерной компьютерной графики может быть представлен в виде последовательности трех элементарных фаз:

•  создание содержания (трехмерное моделирование, текстурирование, анимация);

•  конфигурирование сцены;

•  рендеринг (представление)

Во многих случаях между этими фазами нет строгого разли­чия, моделирование может оказаться частью процесса создания сцены (например, в таких программах, как Caligari trueSpace и Rcalsoft 3D) и т. д.

 

Моделирование

 

Стадия моделирования состоит в формировании индивидуальных объектов, которые затем размещаются на сцене. Известен ряд методов моделирования, в том числе:

•  стереометрия твердых тел;

• использование В-сплайнов;

• аппроксимация многоугольниками.

Моделирование процессов может также включать редактирование поверхности объекта или его материальных свойств (например, цвет  яркость, шероховатость или блеск, характер отражения света, прозрачность или  непрозрачность, коэффициент преломления   и   пр.),   добавляя   текстуры   поверхности,   карты рельефа или другие особенности.

При моделировании могут также применяться операции, связанные с подготовкой трехмерной модели для анимации (хотя в моделировании сложных процессов это может быть от­дельной стадией, известной как оснащение). Объекты могут быть оснащены основой, или «костяком» — центральной структурой объекта, которая определяет форму и допустимые движения этого объекта. Это помогает в процессе анимации, по­скольку движение основы автоматически определяет состояние соответствующих частей модели. В стадии оснащения в модель могут быть встроены определенные алгоритмы управления, что­бы упростить анимацию, например, управление выражением лица персонажа или формой губ в соответствии с произносимы­ми фразами.

Моделирование может быть выполнено как посредством специализированных программ (например, Lightwave Modeler, Moray, Cinema 4D, Rhinoceros 3D, см. рис. 3.20,) или прикладных компонент (Shaper, Loftеr in 3D Studio), так и с использова­нием некоторого языка описания сцен (типа POV-Ray).

 

Формирование сцены

 

Установка сцены. Формирование сцены предполагает разме­щение в пространстве виртуальных объектов, средств освещения, съемочных камер и других объектов, которые будут в последующем   использоваться для создания неподвижных или анимированных изображений. Если речь идет об анимации, на фазе часто используется   метод   ключевых   кадров (keyframing), который облегчает моделирование сложного движения в сцене. Ключевые кадры задают при анимации некоторые обязательные промежуточные положения объектов в сцене, перемещения/изменения  между которыми  (смещение,   вращение, масштабирование) реализуются путем интерполяционных вычислений.

Важным аспектом установки сцены является освещение (подсветка). Так же как и в реальных съемках сцен, освещение — существенный фактор эстетического и визуального качества ре­зультата. Это достаточно сложное искусство и эффекты освеще­ния могут существенно повлиять на настроение и эмоциональ­ную окраску сцены — факт, хорошо известный фотографам и те­атральным режиссерам. Конечно, важнейшую роль играет размещение точек наблюдения (виртуальных фото- и видеока­мер) при «съемке» сцены (своего рода операторское искусство).

Каркасное моделирование и создание сеток. Процесс преобра­зования математических описаний объектов (например, сфера может быть задана ее центром и радиусом) в представлении по­верхности сферы как многогранника, называется каркасным моделированием (tessellation, «составление мозаики», «мо­щение»). Этот шаг используется при представлении на основе многоугольников, когда объекты преобразуются из представле­ний абстрактными «примитивами» (сферы, конусы и т. д.) в так называемые «сетки» (meshes), являющиеся сетями связанных треугольников. Сетки треугольников (вместо, например, квадра­тов) более популярны, поскольку они оказываются гораздо удоб­нее при преобразовании изображения в растровую форму.

 

Рендеринг

 

Rendering — окончательная компиляция изображения. На этапе рендеринга, выполняемого 3D-акселератором, осуществ­ляется построение растрового изображения (пикселей). Узкое место — доступ к памяти (необходимо быстро считывать пиксе­ли и передавать в буфер кадра/экрана). Изображение каждого кадра (сцены) составляют тысячи многоугольников и они долж­ны быть обновлены и переданы через память, по крайней мере 30 раз в секунду, чтобы создать иллюзию движения. Из буфера кадры передаются в RAMDAC (ЦАП) и преобразуются в анало­говый сигнал для монитора.

Процесс рендеринга предполагает использование различных 3D-методов:

• текстурирование, отображение текстур (texture mapping) – технология детализации 3D-изображения, которая лучше всего может быть представлена как обтягивание некоего трехмерного каркаса окрашенной бумагой (конечно, дву­мерной). Это трудоемкий процесс, который должен быть выполнен не только для каждого пикселя изображения, но и для каждого элемента текстуры (текселя, texel). Могут ис­пользоваться разные текстуры (мультитекстурирование, multitexturing);

•  сжатое текстурирование (mip mapping, mip-отображение) — форма сокращения объема данных, при которой создается большее количество текселей, без выполнения эквивалент­ного необходимого числа вычислений. Если сжатие состав­ляет 1 : 4, то считывание одного текселя эквивалентно пе­редаче четырех текселей первоначальной структуры. Если использованы надлежащие фильтры, качество изображения может даже повыситься, поскольку при этом сглаживаются зубчатые грани;

•  билинейная фильтрация (bi-linear filtering) — считывание четверок текселей, усреднение их характеристик и исполь­зование   представленного   результата   как   единственного текселя. В результате выравнивается фактура близлежащих участков, изображение сглаживается и уменьшается пикселизация (blocky, pixelated appearance). Билинейная фильт­рация является в настоящее время стандартом для боль­шинства графических карт;

•  Z-буферизация (Z-buffering) — метод вычисления пиксе­лей, которые следует загрузить в буфер экрана (память, хранящая данные, которые должны быть немедленно выве­дены). Обычные 3D-акселераторы берут один пиксель, рас­считывают его и переходят к следующему. Проблема состо­ит в том, что акселератор не имеет возможностей «узнать», Должен ли рассчитываемый пиксель быть показан немед­ленно или же позже. Z-буферизация вычисляет и приписы­вает каждому пикселю некоторый вес «Z». Чем меньше значение Z, тем раньше данный пиксель должен быть вы­веден на экран;

•  сглаживание  (anti-aliasing)  — технология  снижения  «шу­мов»,   присутствующих  в  изображении.   Например, если объект находится в движении, необходим большой инфор­мационный   поток,   отражающий   изменение   положения, Цвета, размера и т. д. Иногда процессор не успевает обработать всю информацию и тогда некоторые места заполня-ются    бессмысленным    шумом.    Сглаживание    наряду mip-отображением удаляет этот шум;

•  закраска/штриховка   Гуро   (Gouraud   shading)   применяет тени к поверхности объектов, заставляет их выглядеть бо­лее объемно. Алгоритм определяет цвета смежных много­угольников и вычисляет гладкий переход между ними, что гарантирует отсутствие резких цветовых переходов в окра­ске объекта;

•  отображение   выпуклостей/неровностей   (bump   mapping) создает иллюзию объемных углублений на плоской поверх­ности (шершавые стены, бурное море и пр.).

Моделирование эффектов в рендеринге. Рендеринг является одной из важнейших дисциплин трехмерной компьютерной гра­фики. В графическом конвейере — последний важный шаг, даю­щий окончательное представление модели или анимации.

Используется в компьютерных и видеоиграх, тренажерах, спецэффектах кино и телевидения, системах автоматизации про­ектирования (САПР), в каждом случае — на основе специфиче­ских технологий и методик. Доступен широкий спектр про­граммных продуктов-рендеров (renderers) — либо встроенных в большие программы моделирования/анимации, либо отдельные проекты. По своей внутренней структуре, рендерер — тщательно проработанная программа, основанная на широком спектре на­учных дисциплин, которые связаны с физикой, оптикой, теори­ей визуального восприятия, математикой и программированием.

Построенное изображение может иметь множество видимых особенностей и эффектов. Исследования и разработки в области рендеринга в основном мотивировались необходимостью их мо­делирования — некоторых отдельными алгоритмами и метода­ми, а других — в комплексе. В табл. 3.9 приведены основные эф­фекты и особенности, моделируемые в процессе рендеринга.

Были исследованы многие алгоритмы рендеринга, и разрабо­танное программное обеспечение может использовать множест­во различных методов, чтобы получить заключительное изобра­жение.

Прослеживание каждого луча света в сцене — непрактично и слишком трудоемко. Даже рассмотрение части, достаточно боль­шой, чтобы производить изображение, потребует чрезмерного времени, если выборка разумно не ограничена.

В итоге были выделены четыре группы методов эффективно­го  моделирования  процессов  прохождения света  (табл.  3.10).

 

 

Большинство средств расширенного программного обеспечения комбинирует два или больше методов, чтобы получить достаточно хорошие результаты при разумных затратах.

 

Программные средства трехмерной графики

 

API u GDI. Мультимедийные технические средства (а осо­бенно компьютерная графика) — наиболее быстро развиваю­щаяся область промышленности ПК, где с высокими темпами постоянно возникают новые чипсеты, версии интерфейсных карт, устройства и принципы технологий. Для прикладного про­граммиста, занимающегося разработками мультимедийных при­ложений или компьютерных игр, становится совершенно нере­альным заново переписывать все программы с появлением на рынке карт с новыми графическими процессорами, поддерживающими высокопроизводительные технологии мультимедиа с аппаратным ускорением (графические/видеоакселераторы).

Программный интерфейс приложения. В каче­стве решения появились программные интерфейсы приложений (API, application programming interface), которые играют роль посредника между прикладной программой и аппаратными средст­вами ЭВМ (интерфейсная карта и внешнее устройство), на кото­рых она выполняется. Разработчик программного обеспечения пишет обращение к устройству на некотором стандартизированном языке, а не в кодах аппаратных средств ЭВМ. Затем драй­вер, написанный изготовителем периферийного устройства или его карты, переводит этот стандартный код к формату, понятно­му специфической модели периферийных устройств (рис. 3.26).

 

API-интерфейсы обеспечивают доступ к новейшим возмож­ностям высокопроизводительных устройств, таких как микро­схемы ускорения трехмерной графики и звуковые платы. Эти интерфейсы управляют функциями нижнего уровня, в том числе ускорением двумерной графики, поддержкой устройств ввода, таких, как джойстик, клавиатура и мышь, а также микширова­нием и выводом звука.

Графический интерфейс устройства (Graphics Device InterfaceGDI) является стандартом Microsoft Windows, который описывает, как следует представлять графические объ­екты для передачи их на устройства вывода типа мониторов или принтеров.

GDI поддерживает такие задачи, как рисование линий, пред­ставление шрифтов и обработка палитр. Он не занимается непо­средственно формированием окон, меню и т. д., эти задачи ос­тавлены для подсистемы пользователя (user32.dll), которая является надстройкой над GDI.

Существенная способность GDI (кроме более прямых мето­дов обращения к аппаратным средствам) — масштабирование и абстрагирование от оконечных устройств. Используя GDI, можно достаточно просто осуществлять вывод изображений на различные устройства (мониторы, принтера) и ожидать надлежащего результата в каждом случае. Эта способность обеспечивает все приложения WYSIWYG для Microsoft Windows.

Простые игровые программы, которые не требуют быстрой Работки графики, могут обходиться возможностями GDI. Однако более современные игры должны использовать API DirectX или OpenGL, которые дают возможность программистам более интенсивно использовать аппаратные средства.

С появлением Windows XP GDI заменяется преемником — подсистемой GDI+, базирующейся на C++. GDI+ — следующее поколение двумерной графической среды, включающее такие расширенные особенности, как двумерная графика со сглажива­нием, координаты с плавающей запятой, альфа-смешивание, градиентное затушевывание, поддержка современных форматов графических файлов наподобие JPEG и PNG (которые заметно отсутствовали в GDI), и общая поддержка перечня аффинных преобразований в конвейере двумерного рендеринга. Использо­вание этих особенностей очевидно в интерфейсе пользователя Windows XP, и их присутствие в основном графическом уровне очень упрощает выполнение векторных графических преобразо­ваний. Динамическая библиотека GDI+ может вместе с прило­жением использоваться под более ранними версиями Windows. Библиотека классов Microsoft.NET обеспечивает управляемый интерфейс для GDI+.

 

API для трехмерной графики

 

Господствующими направлениями в обработке трехмерной графики в последние годы являются два 3D-APIOpenGL и Direct3D. Прежде чем давать их описания вкратце охарактеризу­ем процедуры, входящие в понятие представления изображения или рендеринга.

OpenGL (Open Graphics Library — открытая графическая биб­лиотека) — межъязыковая и межплатформенная спецификация API для трех- и двумерных приложений компьютерной графики. Включает более чем 250 функций, которые предназначены для формирования трехмерных объектов и сцен из простых прими­тивов. OpenGL был разработан Silicon Graphics Inc. (SGI) в 1992 г. и широко распространен в индустрии разработчиков ви­деоигр, где конкурирует с Direct3D на платформах Microsoft Windows. OpenGL широко используется в САПР, визуализации данных, системах моделирования и видеоиграх.

В своей основе OpenGL — это спецификация, т. е. некото­рый документ, который определяет набор функций и содержит точное описание действий, которые они должны выполнять. На основе этой спецификации производители аппаратных средств ЭВМ создают конкретные программные реализации — библиотеки соответствующие функциям, объявленным в OpenGL – спецификации, используя видеоакселераторы там, где возможно. Оборудование подвергается сертификационным тестам, чтобы квалифицировать его соответствие OpenGL.

Применение OpenGL преследует следующие основные цели:

 • предоставляя программисту однородный программный ин­терфейс приложения, скрывать подробности взаимодейст­вия с различными 3D-акселераторами;

• скрывать различие  платформ  аппаратных средств  ЭВМ, требуя только, чтобы все программные реализации поддер­живали полный набор функций OpenGL (используя программную эмуляцию, если необходимо).

Основная функция OpenGL заключается в считывании гра­фических  примитивов   (точек,   линий   и   многоугольников)   и преобразовании их в пиксели. Это происходит в графическом конвейере,   известном  как  «машина  OpenGL»   (OpenGL state machine). Большинство команд OpenGL или направляет прими­тивы на конвейер, или задает, как конвейер должен их обраба­тывать.

До появления OpenGL 2.0 каждая стадия конвейера выпол­няла установленную функцию и конфигурировалась только в уз­ких пределах, но в OpenGL 2.0 несколько стадий могут полно­стью программироваться с использованием языка GLSL.

OpenGL — процедурный программный интерфейс приложе­ния низкого уровня, который требует от программиста точного описания шагов рендеринга сцен, а также хорошего знания гра­фического конвейера.

Краткое описание процесса в графическом конвейере (рис. 3.27):

•  построение  (evaluation)  коэффициентов полиномиальных Функций (наподобие сплайновых кривых NURBS), кото­рые аппроксимируют пространственные поверхности объектов;

•  обработка вершин многогранников (vertex operations),  их преобразование или подсветка в зависимости от материала, Удаление невидимых частей объектов;

•  растеризация  (rasterisation)  или  преобразование  предыду­щей   информации   в   пиксели,   окраска   многоугольников осуществляется на основе алгоритмов интерполяции;

 

 

•  операции над фрагментами (пиксели или их группы — per-fragment operations) типа обновления ранее поступив­шей и сохраненной информации (цветовая глубина, отте­нок и пр.);

•  передача пикселей в буфер кадра/сцены (frame buffer).

DirectX. Впервые предложенный в 1995 г., DirectX представ­лял собой объединенный набор инструментов программирова­ния, предназначенных для того, чтобы помочь разработчикам создавать широкий спектр мультимедийных приложений для платформы Windows. Охватывая почти все аспекты мультиме­дийных технологий, выпуск DirectX 8.0 включает следующие компоненты:

•  DirectX Graphics, который в свою очередь состоит из двух API:

—  DirectDraw — для обработки двумерных растровых изоб­ражений;

—  Direct3D (D3D) — обработчик 3D-графики;

•  DirectInput,  обрабатывает данные,  поступающие от кла­виатуры, мыши, джойстиков или других игровых контрол­леров;

•  DirectPlay — для поддержки сетевых игр;

•  DirectSound — проигрывание и запись звука;

•  DirectSound3D  (DS3D)  — для  воспроизведения  3D-звучания;

•  DirectMusic — проигрывание звукозаписей, подготовлен­ных в DirectMusic Producer;

•  DirectSetup — установка и настройка компонент DirectX;

•  DirectX    Media,    включает    DirectAnimation,    DirectShow, DirectX   Video   Acceleration,   Direct3D   Retained   Mode и DirectX Transform для анимации, воспроизведения мульти­медиа, 3D -интерактивных приложений;

DirectX Media Objects — поддержка кодирования/декоди­рования в реальном масштабе времени и создание спецэф­фектов.

Direct3D. Direct3D включает две компоненты APIImmediate Mode (немедленная обработка) и Retained Mode (от­ложенная обработка). Первая обеспечивает использование всех 3D-функций видеокарт (подсветка, текстурирование, трансфор­мация объектов и пр.), в то время как вторая — более сложные графические технологии, такие как иерархия сцен или анима­ция. Функции Immediate Mode предпочитают использовать раз­работчики видеоигр, поскольку здесь они могут осуществлять программирование на низком уровне, более свободно и эффек­тивно используя возможности графического оборудования. Не­смотря на Intermediate Mode считается, что Direct3D является менее гибким, чем OpenGL.

Компоненты 6-й версии Direct3D поддерживают возможно­сти более новых графических карт выполнять множественное текстурирование (покрытия «каркаса» изображения текстурами) за один проход. Здесь также используются более новые методы для того, чтобы улучшить реализм 3D-сцен, типа анизотропной фильтрации (anistropic filtering), которая добавляет элемент глу­бины к трилинейной фильтрации (trilinear filtering) и отображе­ние неровностей (bump mapping), которое создает иллюзию ре­альности структуры и освещенности плоских поверхностей.

Следующая версия — DirectX V7.0 (1999 г.), кроме оптими­зации кода, которая позволила на 20 % увеличить быстродейст­вие, включала ряд новых особенностей. Наиболее важная из них — сопровождение операций трансформации и подсветки (transformation and lightingT&L), поскольку они поддержива­ются большинством 3D-акселераторов текущего поколения, и особенно в графических картах чипсетов GeForce 256 (nVidia ) и bavage 2000 (S3).

Поскольку операции T&L являлись одной из самых трудоемких для центральных процессоров задач в современных игровых приложениях, перенос этой нагрузки на выделенный 3D-акселератор позволяет освободить ЦП для более существенных задач (например, внесение в игры элементов искусственного интеллекта или выработка специальных эффектов).

Самым важным аспектом DirectX 9.0 (январь 2003 г.) было введение HLSL (High Level Shader Language, высокоуровневый язык раскрашивания изображений). Ранее разработчики игр должны были программировать алгоритмы раскраски, используя ассемблер низкого уровня. HDSL вводит дружественную среду программирования, которая облегчает каждый шаг разработки, — от создания ярких образов в мультипликации до программирова­ния эффектов. Базирующийся на языке программирования С, HLSL совместим со всеми графическими средствами DirectX.

Структура графического конвейера Direct3D (рис. 3.28):

•  входная сборка (input assembler) поставляет данные на кон­вейер;

•  раскраска вершин многогранников (vertex shader) выполня­ет операции над вершинами, такими, как трансформация, покрытие текстурой, подсветка;

•  раскраска геометрических примитивов (geometry shader) — операции над примитивами (треугольники, вершины, ли­нии), иногда — над связанными с ними примитивами. На этой   стадии   каждый   примитив   передается  дальше   или уничтожается, или на его основе создается один или не­сколько новых примитивов;

• выходной поток (stream output) — запись в память резуль­татов предыдущих стадий. На основе этих данных могут быть организованы итерационные циклы обработки дан­ных на конвейере;

•  растеризация (rasterizer) — трансформация примитивов в пиксели, удаление невидимых;

 

 

 

 

 

 

 

• раскраска пикселей (pixel shader) и другие операции над ними;

• окончательная сборка (output merger), объединение раз­личных типов выходных данных и построение кадра-ре­зультата.

 

Контрольные вопросы

 

1.  Каковы   характеристики  аналогово-цифрового  и  цифро-аналогового   

преобразований аудиоданных?

2.  Перечислите методы синтеза звука.

3.  Какие характеристики имеют аудиоадаптеры?

4.  Что такое ЧМ и WaveTable?

5.  Перечислите возможности карты SoundBlaster.

6.  Что такое Live!Drive?

7.  Охарактеризуйте MIDI-интерфейс.

8.  Перечислите основные характеристики форматов аудиосигнала.

9.  Какие основные функции реализует программное обеспечение обра­ботки

аудиосигналов?

10.  Охарактеризуйте методы оптической интерполяции.

11.  Перечислите основные характеристики цифровых видеокамер (ЦВК).

12.  Что такое схемы цветообразования?

13.  Охарактеризуйте форматы графических файлов.

14.  Что такое видеозахват?

15.  Что такое цветоразностные компоненты?

16.  Перечислите форматы записи цифрового видео.

17.  В чем заключается сущность M-JPEG сжатия видеоданных?

18.  Перечислите основные особенности алгоритмов MPEG-1—4.

19.  Что такое GOP?

20.  Что такое профили MPEG?

21.  В чем сущность стандарта MPEG-7?

22.  Перечислите основные фазы работы с 3-мерной графикой.

23.  Что такое рендеринг?

24.  Охарактеризуйте API OpenGL.

25.  Что такое DirectX и Direct3D?