Глава 16
Средства обработки видеосигнала
Сделать обзор существующих методов и средств цифровой обработки видеоизображений гораздо труднее, поскольку нет не только стандартов, но и каких-либо окончательно сформированных норм.
Упорядочить состояние дел в этой сфере трудно еще и потому, что видеосигналы, используемые в качестве источника для дискретизации, имеют различные системы кодирования цвета и различные параметры сигналов синхронизации. Общим является лишь то, что в качестве источника видеосигнала всегда выступает аналоговое устройство — телевизионный тюнер, видеомагнитофон, видеокамера и т. п.
Цифровое видео — новый вид искусства. Но чтобы им заниматься на PC, необходимы специальные аппаратные средства. Видеозапись до сих пор остается аналоговой, поэтому перед тем, как вы сможете сделать хоть что-нибудь с видеофрагментом, вы должны его оцифровать.
Для этого нужны карты ввода/вывода, принимающие входящий аналоговый видеосигнал и оцифровывающие его в реальном времени, затем эти данные надо сохранить на жестком диске. Для этого необходимы накопители, обеспечивающие скорость чтения не менее 9 Мбайт/с, как правило, с интерфейсом SCSI.
Как только видео оцифровано и сохранено, можно приступать к редактированию и наложению эффектов, но огромный объем данных означает, что процесс создания окончательной версии видеофрагмента высокого качества будет очень медленным. Например, можно смело оставлять PC обрабатывать видео ночи напролет. Решение этой проблемы — аппаратные M-JPEG, MPEG-кодеки, которые будут рассмотрены далее в данной главе.
Работа с цифровым видео сродни работе с цифровыми изображениями или звуком: оригиналы могут быть многократно использованы, клипы в электронном виде могут храниться длительное время в отличие от аналогового видео на магнитной ленте или кинопленке. А главное, целый ряд дополнительных возможностей становится доступным, как только данные попадают в компьютер.
Стандарты цветного телевидения
В главах 14 и 15 мы уже описывали средства для формирования изображения на экране монитора. Основными здесь являются средства синхронизации и развертки изображений. Как уже упоминалось, в настоящее время применяются два способа формирования изображения на экране монитора: построчная и чересстрочная развертки. В телевизионной технике используется чересстрочный способ, когда за первый цикл сканирования электронным лучом экрана формируется изображение нечетных строк, а за второй — четных. В результате чего полный кадр изображения формируется из двух полукадров (полей), т. е. 625 строк развертываются за 1/25 с (при частоте полей 50 Гц для систем PAL и SECAM). Применение такого способа формирования телевизионного изображения обусловлено необходимостью сужения спектра телевизионного сигнала. Однако чересстрочность развертки приводит к заметному мерцанию изображения, даже несмотря на инерционные свойства человеческого глаза и относительно высокую частоту полей (50/60 Гц).
Разрешение графических карт стандарта VGA: 640x480, 800x600, 1024x600 и 1024x768 точек. В телевидении существуют свои стандарты. Задумывались ли вы, почему при демонстрации американских фильмов по европейскому телевидению изображение заполняет не весь экран по вертикали, а сверху и снизу видны темные полосы. Это связано с тем, что американская система цветного телевидения NTSC (National Television System Commite) предусматривает только 525 строк и кадровую частоту 60 Гц, а в Европе принята система PAL (Phase Alternation Line) 625 строк и частота кадров 50 Гц Телевидение будущего - HDTV (High Definition Television) ~ будет использовать совсем другое разрешение. Здесь размер изображения имеет соотношение ширины к высоте 4:3, кратное киноформату — 16:9.
Как вы уже заметили, разрешение телевизионного изображения и графического изображения PC значительно отличаются друг от друга.
Перевод видеоданных в цифровую форму
Перевод видеоданных в цифровую форму можно выполнить с помощью специальных устройств ввода видеосигналов и программ Media Player и Video for Windows.
Прежде всего необходимы программные продукты. Видеоданные, обработанные с помощью выше упомянутых программных средств, могут быть отображены только в окне определенного размера — 160x120 точек изображения (рис. 16.1). На стандартном мониторе с кинескопом размером 14" такое окно занимает всего лишь 1/16 его полной величины. Хотя имеется возможность увеличивать размер изображения, но при этом автоматически включается драйвер Windows Desktop и выбирается более низкое разрешение
Этого может быть вполне достаточно для того, чтобы составить общее представление о мультимедиа. Для серьезной же работы все эти средства не пригодны.
Рис. 16.1. Видеоизображение в окне формата 160x120 в среде Windows
В принципе, видеоклип всегда может быть воспроизведен с качеством, с которым он был записан. Цифровая обработка делает возможной технику увеличения размера окна (без потери качества), для чего необходимы только соответствующие графические возможности системы.
Для создания окон более крупных форматов, например размером 320x240 или 480x360 пикселов, необходимо несколько большее количество информации. Карты типа Overlay, такие как Video Blaster Pro, miroMovie Pro, ScreenMachine и т. п., обрабатывают входные видеосигналы от аналоговых источников так, что эти сигналы могут преобразовываться в изображение на экране монитора с помощью обычной графической карты PC.
Таким образом, большинство карт типа Overlay работает совместно с обычной картой стандарта VGA, не подменяя ее. Обе карты связываются через разъем Feature Connector VGA-карты или/и через внешние разъемы обеих карт. Иногда электронные схемы, обеспечивающие функцию Overlay, интегрируются непосредственно на карту VGA.
Устройства захвата видеосигнала
С момента появления первого видеобластера (VideoBlaster) сингапурской фирмы Creative Labs, ознаменовавшего начало эры массового распространения устройств ввода телевизионных сигналов в PC и де-факто определившего стандарт на их функциональные возможности, считается, что подобные устройства должны обеспечивать следующие возможности.
□ Прием низкочастотного видеосигнала (от видеокамеры, магнитофона или телевизионного тюнера) на один из выбираемых программно видеовходов (не менее трех).
□ Отображение принимаемого видео в реальном времени в масштабируемом окне среды Windows (VGA-монитор можно использовать вместо телевизора).
□ Замораживание кадра оцифрованного видео.
□ Сохранение захваченного кадра на винчестере или другом доступном
устройстве хранения информации в виде файла в одном из принятых
графических стандартов (TIF, TGA, PCX, GIF и др.).
Эти видеоплаты называются захватчиками изображений, устройствами ввода видео, ТВ-грабберами (grab — захватывать), имидж-кепчерами (image capture -захват изображения), просто видеобластерами.
Обобщенная структурная схема этих устройств состоит из четырех базовых элементов, реализованных соответствующими наборами микросхем (рис. 16.2).
Рис. 16.2. Обобщенная структурная схема видеобластера
Первым из них является видеодекодер, обеспечивающий прием сигнала с одного из входов, его оцифровку, цифровое декодирование согласно телевизионному стандарту и передачу полученных YUV-данных видеоконтроллеру. Видеоконтроллер выполняет ключевую роль в организации потоков оцифрованных данных между элементами видеоплаты. Он осуществляет необходимые цифровые преобразования данных (например, YUV в RGB, масштабирование), организует их хранение в буфере собственной памяти — третьем элементе видеоплаты, пересылку данных по шине компьютера при сохранении на винчестере, а также их передачу цифро-аналоговому преобразователю (ЦАП) с VGA-выходом. Последний совместно с видеоконтроллером участвует в формировании "живого" ТВ-окна на экране монитора VGA. Он выполняет обратное аналоговое преобразование цифрового захваченного изображения и в соответствии с ключевым сигналом, вырабатываемым видеоконтроллером, осуществляет передачу VGA-сигнала от VGA-адаптера, либо RGB-сигнала из буфера памяти на монитор.
Рассмотрим работу этих элементов более подробно. Наиболее важными характеристиками видеобластера являются:
□ Формат принимаемых низкочастотных видеосигналов
□ Поддерживаемые телевизионные стандарты
□ Частота и глубина оцифровки
□ Возможность регулировки оцифрованного сигнала
Представление телевизионного сигнала
Как уже отмечалось, низкочастотный телевизионный видеосигнал является композитным, т. е. представляет собой результат сложения яркостного сигнала Y, двух цветовых поднесущих, модулированных цветоразностными сигналами U и V, которые образуют сигнал цветности С (Chroninance), а также синхроимпульсов. Причем, благодаря дискретной структуре спектра сигнала яркости и определенному выбору частоты поднесущей, сигналы цветности передаются в полосе частот сигнала яркости, обеспечивается так называемое частотное перемежение спектров. Это делается с целью обеспечения совместимости систем цветного и черно-белого телевидения, а также для уплотнения спектра телевизионного сигнала. Эта мера приводит к необходимости разделения сигналов яркости и цветности на приемной стороне и, как следствие качества этого разделения, появлению перекрестных искажений на изображении, вызванных взаимным влиянием этих сигналов друг на друга.
Эффективное разделение этих сигналов возможно с помощью специальных гребенчатых фильтров. Однако подобные фильтры весьма сложны и дороги, а потому, в основном, используются в профессиональной аппаратуре высокого разрешения.
В бытовых устройствах ограничиваются более простыми и дешевыми полосовыми фильтрами, заметно снижающими четкость изображения. Так, видеомагнитофоны и камеры форматов VHS (Video Ноте System) и Video-8 работают только с композитными видеосигналами, при этом разрешение составляет не более 240 телевизионных линий (твл). Кроме того, даже полный учет всех различий сигналов все равно не позволяет идеально разделить их.
Более эффективным оказывается использование не единого композитного сигнала, а двух (Y/C): Y — сигнал яркости с синхроимпульсами, а С — сигнал цветности. Такой сигнал называют S-Video, он применяется при записи/воспроизведении на аппаратуре форматов S-VHS и Hi-8. При этом обеспечивается разрешение около 400 твл.
Примечание
Как вам уже известно, полный цветовой телевизионный сигнал (еще называемый полным видеосигналом) состоит из составляющей сигнала яркости By, синхросигналов и сигнала цветности. Существующие в настоящее время системы цветного телевидения PAL, NTSC и SECAM различаются именно методами кодирования сигналов, несущих информацию о цвете передаваемого изображения.
Так, в системе PAL сигнал цветности формируется путем квадратурной балансной модуляции поднесущей частоты 4,43 МГц двумя цветоразностными сигналами V и U, полученными из сигнала яркости EY и сигналов трех основных цветов Er, Eg и Ев:
U = 0,493EB-YSV = 0,877ER-Y.
Поэтому, когда говорят о пространстве YUV, имеют в виду составляющие компоненты телевизионного сигнала системы PAL, т. е. преобразование RGB— YUV означает преобразование сигналов трех основных цветов (красного, зеленого, синего) и сигналов синхронизации (их формирует видеоадаптер), необходимых для отображения информации на экране монитора, в сигнал яркости Y и цветоразностные сигналы системы PAL U и V. Обратное преобразование YUV—RGB осуществляется при вводе телевизионного сигнала в компьютер.
Следующим шагом к повышению качества является переход к компонентному сигналу YUV, составляющие которого передаются раздельно. Он используется в профессиональной аппаратуре формата Betacam и обеспечивает разрешение до 500 твл. И наконец, последним в этой череде является RGB-представление, при котором отсутствуют какие-либо кодирование и модуляция, обеспечивается наиболее простая и точная передача цвета. Тем не менее, достигаемое здесь повышение качества изображения становится уже визуально неощутимо. Поэтому подобное представление реально используется только в высокоточной научной измерительной аппаратуре.
Ранние модели видеобластеров были основаны на декодере Philips SAA9051 и имели три композитных входа, в то время как в современных видеоплатах нормой считается наличие одного S-Video (рис. 16.3) и двух композитных входов, поддерживаемых, например, декодером Philips SAA7110. Для S-Video он обеспечивает параллельную оцифровку Y и С-сигналов. Если SAA9051 "понимает" сигналы только стандартов PAL/NTSC, то SAA7110 позволяет декодировать и SECAM. Более того, он имеет встроенную схему автоматического распознавания системы кодирования сигналов цветности.
Полезной особенностью декодера является возможность регулировки принимаемого видеосигнала по яркости, насыщенности, контрастности. Это позволяет учитывать конкретные условия съемки и в определенных рамках компенсировать недостатки изображения до его сохранения. При этом визуальный контроль процесса настройки можно осуществлять по формируемому видеоизображению в окне VGA-монитора.
Частота оцифровки видеосигнала
Частота оцифровки видеосигнала определяет получаемое разрешение по горизонтали. В теории цифровых стандартов кодирования за базовую частоту принимается 3,375 МГц, а частоты оцифровки составляющих определяются умножением базовой частоты на соответствующую цифру в обозначении стандарта.
четыре раза ниже. При этом сам декодер, осуществляющий разложение входного электрического сигнала на составляющие YUV уже после оцифровки, должен выполнять выборку из аналогового ТВ-сигнала в два раза . чаще —. с частотой 27 МГц. Однако при этом элемент изображения будет неквадратным. Дело в том, что в телевидении в качестве стандарта принято отношение ширины элемента телевизионного изображения к его высоте как 4:3. Чтобы сохранить соотношение сторон изображения, предотвратить появление геометрических искажений и при этом сохранить элемент изображение в виде квадрата при 576 активных телевизионных строках, необходимо в каждой строке выделить 768 элементов. При частоте дискретизации 13,5 МГц, соответствующей рекомендации МККР (CCIR) 601, будет получено всего 702 элемента, а для 768 частота должна быть увеличена примерно до 14,77 МГц (рис. 16.4).
Еще одной важной характеристикой декодера является глубина оцифровки, задаваемая числом бит на отсчет. Для получения полноценного изображения считается необходимым 16 млн цветовых оттенков (режим True Color — Реальные цвета), что требует 8 бит на элемент изображения для каждой составляющей видеосигнала. Таким образом, качественный декодер должен принимать с возможностью регулировки как композитный, так и S-Video-сигналы стандартов PAL/SECAM/NTSC и осуществлять их 8-битную оцифровку 4:2:2 на частоте, 14,75 МГц. Все это обеспечивают, например, Philips SAA7110 или Brooktree Bt819A.
Видеоконтроллер выполняет роль интеллектуального диспетчера передаваемых потоков цифровых данных. В первую очередь, он отвечает за организацию их хранения в буфере памяти видеобластера. Данные могут храниться как в RGB-, так и в YUV-представлении. Более эффективной является YUV-кодировка, при которой для хранения одного элемента изображения достаточно 2 байт (при оцифровке 4:2:2 отводится один байт для кодирования сигнала яркости и по 4 бита для кодирования сигналов цветности). В то же время во многих устройствах используется RGB-представление, при котором для обеспечения режима True Color необходимо уже 24 бита на элемент — по 8 бит на каждую составляющую. Обычно такую кодировку обозначают RGB 8:8:8. Если же, как и ранее, ограничиться 16 битами, то используют кодировку 5:6:5, соответствующую 64 тыс. цветовых оттенков — режим High Color.
Организация хранения элементов изображения
Хранение элементов изображения организовано в виде матрицы, например, 512x512, 1024x512 или 1024x1024. В зависимости от конкретного способа кодировки размер буфера памяти может меняться от 256 Кбайт до 2 Мбайт (табл. 16.1), и в то же время при одном и том же размере буфера эффективность использования памяти может быть различной. Таким образом, даже если декодер и обеспечивает оцифровку входного видеосигнала без ухудшения качества, но объем памяти недостаточен, результирующее изображение окажется некачественным (размытые детали, цветовые пятна и т. д.). Обратное также верно. Например, если память организована как 1024x512 и достаточна для размещения в ней 768 элементов строки, но частота оцифровки 13,5 МГц, то результирующий размер изображения не может быть более 702x512. Впрочем, качество видеосигнала многих бытовых видеокамер столь невысоко, что возлагать вину за плохое качество захваченного изображения только на видеобластер было бы несправедливым.
Таблица 16.1. Зависимость размера буфера памяти от способа кодировки
Итак, видеоконтроллер, принимая оцифрованный сигнал от декодера, прежде всего осуществляет преобразование его кодировки, например YUV 4:2:2 в RGB 5:6:5, т. е. переход от 16 млн цветов к 64 тыс. с помощью специального механизма true-color dithering. Далее контроллер позиционирует и вырезает из массива цифруемых данных участок, который реально может быть размещен в памяти (например, 512x512 из 768x576),— либо выбрасывая лишние строки и столбцы, либо путем интерполяции, масштабируя полное изображение до нужного размера и теряя в обоих случаях информацию. Эти операции контроллер выполняет с каждым кадром, обновляя каждые 40 мс содержимое памяти. Режим обновления (захват изображения) прекращается только по специальной команде. Одновременно с этим контроллер постоянно считывает данные из буфера с целью их передачи в RGB-представлении на цифро-аналоговый преобразователь (ЦАП) для формирования ТВ-окна с "живым" видео.
Кроме цифрового сигнала от контроллера, ЦАП принимает аналоговый RGB-сигнал с выхода VGA-адаптера и осуществляет переключение между ними в соответствии со значением (0 или 1) специального ключевого сигнала (kеу - сигнала). Именно этим сигналом определяется положение "живого" окна на экране монитора. Kеу-сигнал формируется контроллером. В предыдущих моделях видеобластеров для этого анализа видеоадаптер должен был получать цифровые VGA-значения через специальный 26-контактный разъем Feature Connector. К сожалению, у многих дешевых видеоадаптеров подобный разъем отсутствует. В современных видеобластерах анализ VGA-сигнала производится уже в аналоговой форме, что снимает требование на наличие разъема Feature Connector.
Наконец, контроллер передает оцифрованные данные на шину компьютера. Эта операция, выходящая за пределы видеобластера, выполняется под управлением CPU.
Вышеописанные режимы функционирования элементов видеобластеров являются принципиально возможными, но их практическая реализация во многом зависит от эффективности работы управляющего программного обеспечения (драйвера), которое, например, определяет точность цветовой калибровки оцифрованных данных для различных телевизионных стандартов, поддерживаемые VGA-режимы Windows и графические форматы сохраняемых файлов. Нередко это приводит к существенным отличиям реальных характеристик видеобластеров разных производителей. В то же время за счет программных "ухищрений" можно достичь иллюзии более высоких характеристик, чем это реально обеспечивается. Так, многие видеобластеры, обладая памятью объемом только 512 Кбайт и не обеспечивая захвата полноразмерного телевизионного изображения, программным масштабированием при сохранении его в файле растягивают изображение до размера 800x600.
Все вышесказанное касается основного класса видеобластеров. Кроме приведенных в табл. 16.2 (от Video Blaster SE100 до Aver Video Commander 3) можно упомянуть также Video Blaster FS-200, Grand Video Pro, Genius High Video, Malifax Movie Vision и многие другие (в данной книге невозможно перечислить все тайваньские и сингапурские фирмы, занимающиеся производством multimedia-карт).
В то же время, очевидно, существуют и иные схемотехнические решения. В первую очередь здесь следует отметить устройства видеозахвата, совмещенные с видеоадаптерами (например, miroVideo 20TDLive, Diamond Multimedia Video Blaster DTV1100 или Prolink PV-CL 5446P+) и использующие в режиме разделения общую память (для качественной работы требуется не менее 2 Мбайт), но с точки зрения результирующего качества захвата они заметно уступают специализированным видеобластерам.
В качестве характерного примера видеобластера можно привести продукт известной французской фирмы Vitec MULTIMEDIA, в частности, VideoNT. Именно эта карта обеспечивает наиболее точное и продуманное решение поставленной задачи: низкий уровень шумов, повышенная четкость и наиболее корректная цветопередача. К ее недостаткам можно отнести отсутствие "живого" окна — отображение осуществляется в режиме preview — 5—8 кадр./с.
Среди доступных массовому пользователю можно отметить новый класс сравнительно дешевых устройств для компьютеров класса Pentium — Fly Video, активно использующих возможности шины PCI по передаче потока данных со скоростью до 30—50 Мбайт/с. Это позволяет отказаться от буфера собственной памяти и использовать RAM компьютера. В этом случае для создания "живого" окна оцифрованное изображение по шине пересылается прямо в память видеоадаптера. Фактически карты типа Fly Video используют только декодер и контроллер. Существенным недостатком таких карт являются очень высокие требования к производительности компьютера, в частности, к быстродействию видеоадаптера. На компьютере средней мощности с процессором Pentium реально достижимое качество захвата видео может оказаться посредственным.
Выбор видеобластера
При выборе видеобластера в первую очередь следует обращать внимание на:
□Число поддерживаемых телевизионных стандартов (рекомендуется PAL/SECAM, 1 вход композитный, 1 S-Video).
□ Точность оцифровки входного сигнала (рекомендуется YUV 4:2:2).
□ Физическое разрешение изображения (рекомендуется 768x576x16 млн цветов).
□ Размер буфера памяти и ее организация (не менее 1 Мбайт при YUV 4:2:2; 1,5 Мбайт при RGB 8:8:8).
□ Возможность подстройки входного сигнала.
□ Наличие ограничений на размер RAM компьютера, способ связи с видеоадаптером (требование разъема Feature Connector).
□ Поддерживаемое разрешение Windows (рекомендуется не хуже 800x600, 64 тыс. цветовых оттенков).
□ Визуальное качество оцифрованного изображения. Основные характеристики видеобластеров приведены в табл. 16.2.
Карты ввода/вывода видеосигналов и их характеристики
До сих пор мы рассматривали только задачу захвата и сохранения отдельных ТВ-кадров. Но для того чтобы сделать кинофильм или видеоролик, необходима оцифровка видеофрагмента. Прямое решение поставленной задачи ввода видеопоследовательности пока не представляется возможным. Дело в том, что кадр 768x576 в представлении YUV 4:2:2 занимает объем 864 Кбайт (в RGB 8:8:8 — 1296 Кбайт), соответственно за 1 с (25 кадров) объем оцифрованных данных составит 21 Мбайт (32 Мбайт), а для записи одной минуты видеофрагмента потребуется винчестер емкостью не менее 1 Гбайт. Разумеется, проблема заключается не только в объеме поступающей информации, но и в скорости ее передачи (при записи) и считывания (при воспроизведении). К сожалению, реально достижимая скорость записи/считывания видео на современных винчестерах составляет 2—4 Мбайт/с, хотя в специальных системах скорость приближается к 7 Мбайт/с.
Таким образом, при оцифровке видеофрагмента существуют две проблемы:
□ Скорость обмена данными
□ Уменьшение потока данных
Первая проблема решается путем разработки новых быстродействующих накопителей данных. Вторую сложно решить за счет следующих приемов:
□ Уменьшения размера кадров до 160x120 и числа цветов до 256
□ Уменьшения частоты кадров до 6—12 кадров/с
□ Использования компрессии видео
Первые два являются наиболее очевидными, но приводят к резкому ухудшению визуального качества видео. Последний метод является наиболее эффективным.
Видеобластер, оборудованный средствами компрессии видео, в комплексе с программным обеспечением превратит PC в систему нелинейного монтажа. Такие устройства будем называть картами ввода/вывода видеосигналов (далее — картой ввода/вывода).
При линейном монтаже исходный материал (результат собственно видеосъемок) находится на видеокассете, и, для того чтобы найти необходимый кадр, приходится перематывать пленку, что изнашивает дорогостоящие монтажные аппараты и отнимает не менее дорогостоящее монтажное время.
В случае нелинейного монтажа весь материал находится на жестком диске, в результате чего обеспечивается произвольной доступ к необходимому кадру. И это еще без учета возможностей цифровой обработки изображения, которые предоставляет пользователю современное программное обеспечение. А возможности эти практически безграничны: моделирование объектов, спецэффекты, фильтры, титры и т. п.
Таким образом, если вы хотите заняться нелинейным монтажом, исходный видеоматериал требуется ввести в компьютер, а после завершения монтажа записать на видеоленту готовый фрагмент. Все это можно сделать только при помощи компрессии данных. Алгоритмы компрессии будут рассмотрены ниже. Здесь мы остановимся на их технической реализации. Очевидно, программные кодеки позволят вам только просмотреть закодированные фрагменты, например, с диска Video CD. Если же вы захотите сохранить видеопоследовательность, естественно, в сжатом виде, этот процесс займет слишком много времени.
Важной ступенью в развитии карт ввода/вывода стала разработка и использование микросхем аппаратной компрессии, позволяющих в реальном времени захватывать и сжимать видео. Первым появился Intel Smart Recorder, позднее лицензированный фирмой Creative Labs и выпускаемый под названием Video Blaster RT300. Он построен на базе DVI-процессора Intel 82750РЕ, реализует алгоритм компрессии Intel Indeo и обеспечивает до 25 кадр/с при максимальном разрешении 320x240. Необходимо подчеркнуть, что декомпрессия Indeo-файлов выполняется программным способом. Иначе говоря, сжатое видео может быть воспроизведено на любом достаточно быстром компьютере. В настоящее время фирма Creative Labs на базе RT300 разработала систему видеоконференций Share Vision.
Но поистине к революционному изменению мира цифрового видео привело появление дешевых микросхем кодеков M-JPEG (фирм LSI Logic и Zoran), аппаратно реализующих JPEG-компрессию отдельных телевизионных полей 384x288 с частотой до 50 Гц. На их базе было создано множество доступных по цене карт, позволяющих как записывать на винчестер, так и воспроизводить с него реальное видео с коэффициентами компрессии от 120 до 5. Это способствовало взрывному характеру развития систем нелинейного монтажа PC, позволяющих захватывать отдельные видеофрагменты, осуществлять их цифровое редактирование (а возможности современных программ Adobe Premier 4.0 или Uled MediaStudio 2.5 практически безграничны) и последующую склейку/вставку в исходный фильм. Что касается MPEG-кодеров, то сегодня в большинстве своем они слишком сложны и дороги для массового пользователя. Хотя и здесь с появлением карты VideoNT Pro фирмы Vitec MULTIMEDIA очевиден значительный прогресс. Эта карта еще не позволяет подготавливать на домашнем компьютере Video CD, но уже обеспечивает выпуск полноценных MPEG-фильмов для различных мультимедийных программ.
Итак, чтобы грамотно выбрать карту ввода/вывода (рынок в России в последнее время буквально наводнен достаточно дорогим, но практически бесполезными видеокомпонентами для компьютера), при ее покупке следует очень четко определить интересующие вас возможности и характеристики.
Характеристики карт ввода/вывода видеосигналов приведены в табл. 16.3.
На что следует обратить внимание при выборе видеобластера, мы рассказали выше. Здесь же кратко остановимся на возможностях, присущих картам ввода/вывода, на которые следует обратить внимание в первую очередь.
Frame Grabbing
Благодаря функции Frame Grabbing (оцифровка и сохранение отдельного кадра) один кадр может быть сохранен в видеобуфере и записан на винчестер. При этом если скорость обработки полученного видеоизображения зависит от VGA-карты, системной шины и 'центрального процессора, то собственно качество картинки (разрешение, количество цветов и точность их передачи) зависит от соответствующих характеристик карты ввода/вывода видео. Поэтому при выборе карты с функцией Frame Grabbing следует обращать внимание на следующие ее характеристики:
□ Качество оцифрованной картинки (разрешение, количество цветов, цифровые фильтры).
□ Возможности экспорта (количество поддерживаемых форматов графических файлов).
□ Компрессию оцифрованного кадра (тип, коэффициенты, качество, требования к системной памяти).
Movie Grabbing
Функция Movie Grabbing (оцифровка и сохранение "живого" видео) наиболее важна для производства видео. Очевидно, что для записи видео на диск в реальном масштабе времени поток видео необходимо сжимать до такой степени, чтобы успевать записывать его на винчестер. Это можно сделать либо при помощи центрального процессора и соответствующего программного обеспечения, либо при помощи специального аппаратного ускорителя (как правило, отдельной M-JPEG- или DVI-карты). Очевидно, что наилучшего результата можно добиться при использовании аппаратного ускорителя.
Предлагаемая компанией Microsoft технология Video for Windows позволяет сохранять на диске и воспроизводить последовательность кадров в формате AVI-файла. Фирма Apple предлагает формат Quick Time для Macintosh и Windows. Многие производители видеокарт и систем нелинейного монтажа пользуются форматами собственной разработки.
При выборе карты с функцией Movie Grabbing следует обращать внимание на следующие характеристики:
□ Качество оцифрованного видео (разрешение, количество кадров/полей в секунду, количество цветов).
□ Наличие/отсутствие аппаратного ускорителя (Motion-JPEG, Indeo, AVI).
□ Возможность записи больших фрагментов на диск видео.
□ Совместимость с форматами AVI и Quick Time.
Live Video in a Window
Для того чтобы оперативно просматривать созданные видеосюжеты или исходный материал, важна возможность добавления видеосигнала в сигнал, формируемый видеокартой VGА, без участия центрального процессора. В этом случае карта типа Overlay переключает графическую карту в режим slave (ведомый) и синхронизирует видео с выходным сигналом по частоте и разрешению.
При выборе карты, поддерживающей функцию Live Video in a Window, следует обращать внимание на следующие характеристики:
□ Возможность отображения видео в окне при высоком разрешении (более 800x600).
□ Качество изображения.
□ Совместимость (требуется ли наличие разъема Feature Connector для подключения к видеокарте).
ТВ-тюнер/Tелетекст
Эти возможности карты, видимо, не нуждаются в комментариях; перечислим лишь наиболее важные характеристики, обеспечивающие выполнение этих функций:
□ Выбор ТВ- программ
□ Поддерживаемые стандарты
□ Наличие тюнера на самой плате
□ Возможность захвата телевизионных кадров
Hard Disk Editing
Hard Disk Editing — нелинейный (цифровой) монтаж. Когда материал оцифрован и находится на винчестере, появляется возможность его редактирования как межкадрового (для создания всевозможных эффектов перехода на монтажных стыках), так и внутрикадрового (для изменения отснятого материала, например, встраивания в кадр рисованных объектов). Эта функция осуществляется в режиме off-line с помощью специального программного обеспечения (например, Adobe Premiere (рис. 16.5), Fractal Design Painter, Winmorph, Elastic Reality) и обычно требует заметных временных затрат. Ряд более простых видеоэффектов, например; микширование с аналоговым сигналом, может осуществляться в реальном масштабе времени за счет встроенных возможностей самой карты ввода/вывода — именно так это и реализовано в некоторых из рассмотренных ниже карт.
Рис. 16.5. Панель управления программы Adobe Premiere
Поскольку далеко не все настольные видеосистемы строятся на основе мощных машин, позволяющих проигрывать видео без дополнительных устройств, еще одной важной функцией является способность карты ускорять процесс чтения видеофрагментов с диска для просмотра их на экране монитора. Так как большинство карт используют системные ресурсы для оцифровки видео, следует учитывать, на какой шине установлен контроллер винчестера (ISA, EISA, PCI), его интерфейс (IDE, SCSI, SCSI-2) и, конечно, скоростные характеристики самого жесткого диска.
Tape Editing
Таре Editing — линейный (аналоговый) монтаж. Поскольку исходный видеоматериал (как, впрочем, и конечный результат) чаще всего находится на видеокассете, то в ряде случаев удобнее работать только с сигналом, воспроизводимым видеомагнитофоном.,Компьютер при этом используется только в качестве видеомикшера, генератора спецэффектов, титров и графики. Преимущества такого варианта очевидны: отсутствие компрессии и, как следствие, лучшее качество изображения, меньшие требования к объему памяти (как оперативной, так и на винчестере), отсутствие потерь времени на просчет спецэффектов (все эффекты должны производиться в реальном масштабе времени).
Для реализации функции Таре Editing необходимо учитывать следующие возможности и характеристики карт ввода/вывода и привода CD-ROM:
□ Возможность микширования аналоговых видеосигналов и создания спецэффектов (видеоэффекты, титры, графика, звук).
□ Качество изображения.
□ Возможность воспроизведения Video CD — MPEG Decoding (при наличии как минимум 4-скоростного привода CD-ROM).
MPEG Decoding
Функция MPIJG Decoding предоставляет возможность воспроизведения Video CD (видеоинформации, кодированной по технологии MPEG). Технология MPEG позволяет за счет разностного алгоритма сжатия значительно уменьшить необходимый для видео поток данных. В Video CD применяется алгоритм сжатия в соответствии со стандартом MPEG1, который обеспечивает скорость потока данных до 5 Мбайт/с, что дает качество сигнала, соответствующее стандарту VHS (разрешение порядка 320x240). Сжатие по алгоритму MPEG1 также используется при подготовке дисков CD-I и для сжатия видеосигналов. Как правило, декодирование видеоинформации осуществляется аппаратным способом специальными MPEG-декодерами. MPEG-декодер устанавливается как на картах ввода-вывода, так и на видеокартах и должен обеспечивать воспроизведение видеофрагментов, сжатых по стандарту MPEG1 на полный экран (т. е. с удвоением пикселов или строк) со скоростью 25—30 кадров в секунду, и стереофонического звукового сопровождения, также сжатого по технологии MPEG. В настоящее время существуют два основных стандарта, описывающих использование MPEGl -видео: White Book (для дисков Video CD) и Green Book (для дисков CD-I).
Качество выполнения функции MPEG Decoding определяется следующими характеристиками карт ввода/вывода:
□ Качество воспроизводимого изображения.
□ Возможность просмотра видео на видеомониторе, а не только на дисплее компьютера.
□ Совместимость со стандартами White Book и Green Book.
Примечание
Технологию MPEG не следует путать с алгоритмом M-JPEG. Если первая является фактически стандартом файла, то второй только математическим алгоритмом, который никак не специфицирует сам файл. Кроме того, в основу положены два принципиально разных метода. Если M-JPEG последовательно сохраняет все кадры, то при использовании MPEG-компрессии сохраняются только изменения, которые произошли с некими "ключевыми" кадрами.
В качестве примера подробнее рассмотрим и оценим качество нескольких карт ввода/вывода видеосигналов из серии Movie Line производства компании Fast Multimedia.
При сжатии информации существенную роль играют два фактора: качество и время. Для непрофессиональной работы время компрессии по сравнению со временем декомпрессии играет второстепенную роль. Это обусловлено тем, что большинство пользователей PC при своей работе в области мультимедиа обычно используют уже"*тотовые носители информации (как правило, это компакт-диски) с уже записанными на них данными. Такими данными обычно являются различного рода игры с элементами видео.
Проблема, связанная с компрессией и декомпрессией данных, решается путем разработки специальных программно-аппаратных средств (кодеков), позволяющих достаточно быстро на основе соответствующих алгоритмов снижать объем данных в 100—200 раз.
Существуют два способа сжатия данных:
□ Сжатие без потери информации, при котором объем данных уменьшается, но так, что при его восстановлении (декомпрессии) достигается то же самое исходное состояние (качество изображения).
□ Сжатие с потерей информации; с помощью этого способа достигаются более высокие результаты, но потери в качестве обязательно должны учитываться.
Здесь мы кратко остановимся на методах компрессии данных, относящихся ко второй группе, поскольку применение кодеков первой группы не дает необходимого коэффициента сжатия. Кроме того, время декодирования информации, сжатой без потери качества, достаточно велико, что не позволяет своевременно восстанавливать данные в исходную форму.
Существует множество различных алгоритмов компрессии видео: сравнительно простые (RLE, Cinepak) сложные (Intel Indeo, MPEG, M-JPEG) и весьма изощренные (как фрактальный метод фирмы Iterated System). Компрессия отдельных кадров без потери информации на реальных сюжетах, содержащих много мелких деталей и цветовых неоднородностей, обеспечивает коэффициент сжатия не более 2. Дальнейшее повышение компрессии неизбежно связано с потерей информации и определенным понижением качества: размыванием границ, искажением цветов, возникновением различного рода искажений. Наиболее мощным здесь оказывается метод фрактальной компрессии, но он не получил широкого распространения по ряду причин, в том числе из-за закрытости математической схемы, слишком сложной реализации и несимметричности — эффективное сжатие отдельных кадров требует много времени даже на высокопроизводительных рабочих станциях, тогда как восстановление • легко и быстро выполняется на обычных PC.
Video I и Indeo
Методы сжатия Video I и Indeo реализованы как аппаратными, так и программными средствами. На основе векторного преобразования содержание изображения разлагается на простые геометрические элементы. Результат такого преобразования записывается не в битовой форме (bitmap), а в виде векторов, которые описывают контуры и направления движения этих элементов. Кроме того, здесь разделяются сигналы, несущие информацию о яркости картинки (Luminance) и о ее цветовом содержании (Chrominance), — формат YUV. Поскольку свойства человеческого глаза таковы, что уменьшение информации о яркости более заметно, чем уменьшение цветовой информации, то здесь используется возможность снижения объема данных за счет потери цветового качества кодируемого изображения.
Метод Video I обеспечивает оптимальное соотношение между скоростью передачи данных и размером всего видеофайла. Недостатком формата представления данных, сжатых по методу Video I, является то, что данные записываются на винчестер без предварительного сжатия.
Метод сжатия видеоинформации Indeo был разработан фирмой Intel для реализации его в специальных процессорах серии i750 (Intel 82750). Адаптер с процессором i82750 обеспечивает оцифровку видео- и аудиоинформации в реальном масштабе времени практически без использования ресурсов процессора PC. Создание этого адаптера явилось значительным достижением в области мультимедиа, поскольку он был первым устройством, способным воспроизводить движущиеся изображения с компакт-диска.
Общепризнанным стандартом сжатия отдельных кадров стал алгоритм JPEG (Joint Photographers Expert Group — Объединенная группа экспертов по фотографии). Компрессия осуществляется таким образом, что каждый кадр видеопоследовательности сжимается и восстанавливается независимо oil других кадров. Это дает возможность использования этого метода в системах I нелинейного монтажа. В основу алгоритма положено разбиение изображения на блоки размером 8x8 пикселов, преобразование по технологии DCT (дискретное косинусное преобразование) и высокочастотная фильтрация ' полученного спектра. В результате на границах отдельных блоков нарушается гладкость представления, поэтому характерным признаком JPEG-изображения является его видимая блочная структура. Однако при коэффициенте сжатия не более 15 эти искажения почти незаметны. Более того, считается, что сжатие до 5 (видеопоток 4—6 Мбайт/с) соответствует профессиональному качеству, обеспечиваемому видеоаппаратурой формата Betacam, а до 10 (видеопоток 2—3 Мбайт/с) — качеству, характерному для формата S-Video. Основным достоинством данного алгоритма является его симметричность: восстановление производится обратным косинусным преобразованием и требует тех же ресурсов и временных затрат, что и компрессия.
Следующим шагом к уменьшению потока передаваемых данных стал алгоритм MPEG (Moving Picture Experts Group — Группа экспертов по движущимся изображениям), основанный на устранении временной избыточности в последовательности видеокадров. Дело в том, что смежные кадры чаше всего содержат одни и те же объекты сцены, что позволяет ограничиваться передачей только межкадровых различий.
Стандарт MPEG создавался для обеспечения высококачественного воспроизведения видео при относительно низких скоростях передачи данных. Сначала JPEG-преобразования уменьшают избыточность информации внутри кадра, а затем алгоритмы MPEG осуществляют дальнейшее сжатие видео, уже без потерь качества. С помощью метода компенсации движения (motion compensation) устраняется избыточность, возникающая изза повторения одной и той же информации в нескольких кадрах подряд. MPEG использует три типа кадров: ключевые (Intra farmes, I-кадры), зависимые (Predicted frames, Р-кадры) и двусторонние (Bi-directional, В-кадры).
Ключевые кадры — основа базис-структуры MPEG-файла. Они записываются с высоким разрешением и обеспечивают произвольный доступ к информации. Каждый зависимый кадр записывается как ссылка на предшествующий ему ключевой или зависимый кадр и имеет среднюю степень сжатия. Наибольшему сжатию в потоке MPEG подвергаются двусторонние кадры. Они имеют двунаправленную ориентацию, ссылаясь как на предыдущие, так и на последующие кадры. Воспроизведение материалов, записанных в формате MPEG, выполняется с помощью недорогих карт расширения или даже просто программно. Получивший широкое распространение стандарт MPEG-1 (352x288, 25 кадр/с) обеспечивает VHS-качество при потоках в 200 Кбайт/с, MPEG-2 (704x576, 25 кадр/с) — качество профессионального уровня при потоках 1 Мбайт/с. К сожалению, MPEG несимметричен и для достижения максимального уровня компрессии без снижения качества изображения требует математически сложного анализа и предфильтрации, значительно улучшающей качество сжатого сигнала. Процесс кодирования видео в формат MPEG требует гораздо больших ресурсов, чем привычные специалисту по мультимедиа инструментальные средства захвата видеосигнала, работающие с Motion JPEG. В то же время восстановление оказывается сравнительно простым.
И поскольку карты MPEG-воспроизведения очень дешевы, а ассортимент Video CD очень широк, то обеспечение функции MPEG-playback становится сегодня обязательной частью истинного мультимедиа-компьютера. Более того, многие современные VGA-адаптеры осуществляют аппаратную поддержку программного MPEG-воспроизведения.
Цифровые универсальные диски DVD будут использовать новый вариант MPEG-кодирования, называемый Variable Bit Rate MPEG-2 (VBR — Кодирование с переменной скоростью потока). VBR — более изощренная форма MPEG-обработки, при которой сложные и быстро меняющиеся изображения автоматически кодируются с меньшим коэффициентом сжатия, но в то же время средний поток данных на выходе меньше, чем при использовании стандартного варианта MPEG-2. Подобные системы по своей цене все еще весьма далеки от того, чтобы их назвать массовыми.
Огромное влияние на качество MPEG-изображения оказывает тип устройства воспроизведения. Персональные компьютеры воспроизводят изображения в стандарте MPEG на полном экране с разрешением 352x240. Многие видеоадаптеры для PC масштабируют изображение до размера примерно 640x480 пикселов, чтобы заполнить экран дисплея. В некоторых случаях адаптеры, оборудованные специальными видеопроцессорами, могут заметно улучшить (или ухудшить) качество изображения. Захватывая из видеопоследовательности неподвижные кадры, можно оценить относительное качество изображения, не беспокоясь об отрицательном или положительном влиянии видеоадаптера. Удобно оценивать качество воспроизводимого изображения и работу системы в целом путем захвата неподвижных кадров и вывода их на цветную печать с разрешением 600x600 dpi.
□ Грязное оконное стекло {Dirty Window Pane). Этот дефект состоит в том, что объекты на экране выглядят так, будто вы смотрите на них сквозь дымку. Некоторые специалисты называют этот дефект "грязное оконное стекло" — кажется, что между наблюдателем и изображением натянута мутная пленка. Более всего такой эффект заметен на фрагментах с большими темными областями, а порождается он ошибками оцифровки в MPEG-кодере, декодере или и в том и другом.
□ Танцующие глаза (Dancing Eyes). При MPEG-сжатии иногда теряются мелкие детали на изображении человеческого глаза. В результате в отснятом материале вдруг обнаруживаются моргание или слезы, хотя в действительности ничего подобного не происходило.
□ Призрачные следы (Ghostly Trails). Этот дефект заключается в появлении облака частиц, сопровождающего движущиеся элементы: это либо "хвосты", следующие за взмахом руки или бегущим человеком, либо зыбкие переливающиеся границы вокруг быстро движущегося объекта. Дефект появляется, когда кодер или декодер не успевает за быстро движущимися элементами сцены и воспроизводит движущиеся элементы просто наугад.
□ Танцующие цвета (Dancing Colors). Ошибки в оценке движения могут вызвать переливающуюся цветную радугу на больших поверхностях движущихся одноцветных предметов, таких как, например, автомобиль.
□ DCT-блочность (DCT Blockiness). На большой части экрана заметны правильные квадратики размером 8x8 (или 16x16). В их появлении виновно дискретное косинусное преобразование (Discrete Cosine Transform, DCT), используемое для сжатия поля или кадра. Когда углы и вершины этих блоков попадают на края и границы изображения, появляются дополнительные искажения. Но основная причина кроется в блочной природе технологии DCT. Для уменьшения этих искажений рекомендуется работать с блоками размером 2x2 или 4x4.
□ Сжатие яркости (Luminance Compression). Этот дефект состоит в резком усилении контрастности изображения. Весь диапазон яркости от светлого до темного, захватываемый аналоговыми видеосистемами, неправильно воспроизводится DCT-кодером или механизмом оценки движения MPEG. Если во время съемки прекращает работать вспышка или камера следует за объектом, движущимся из ярко освещенного места в тень, сцена может показаться распавшейся на части.
□ Цветные полосы (Color Banding). Узоры, появляющиеся после компрессии/декомпрессии, обычно вызываемые шумом в аналого-цифровых и цифро-аналоговых преобразователях видеомонтажных систем. Для устранения этих дефектов некоторые производители переходят от 8-битного к 10- и 12-битному кодированию цвета. Но эти усовершенствования могут увеличить в несколько раз необходимый объем памяти монтажной системы. Обычно приходится бороться с такими дефектами вручную.
□ Шевелящийся фон (Busy Background). Обычно неподвижные области фона (и некоторые элементы переднего плана) кажутся живыми или шевелящимися, как будто маленькие цветные частицы бродят по их поверхности. Техническое название этого явления — шум квантования. Системы, имеющие улучшенные АЦП или оперирующие с более чем 8 битами на каждый цвет, меньше подвержены дефекту шевелящегося фона.
Программная поддержка аппаратных средств воспроизведения видео
Стандарт DCI
Появление стандарта DCI (Display Control Interface) фирмы Microsoft позволило осуществить воспроизведение полноэкранного цифрового видео с использованием ресурсов мультимедиа-ускорителей. Вообще говоря, DCI — это интерфейс нижнего уровня, который реализует возможности аппаратных средств по воспроизведению видео. Так, если DCI-драйвер обнаружил наличие аппаратной поддержки некоторых мультимедийных функций, он изменяет последовательность выполнения операций и разгружает центральный процессор от выполнения некоторых из них. Например, до появления DCI при использовании программы Video for Windows декомпрессия AVI-файлов и пространственные преобразования цвета YUV—RGB целиком ложились на центральный процессор системы. Ускоритель Windows в этом случае занимался только масштабированием изображения. Видеокодек (программа для компрессии и декомпрессии видеоинформации), соответствующий DCI, сначала проверяет наличие видеоускорителя и, если он присутствует, загружает его работой по масштабированию и преобразованию YUV—RGB, возлагая на центральный процессор только функции по декомпрессии изображения. Таким образом, стандарт DCI поддерживает следующие аппаратные расширения в графических картах.
□ Аппаратное масштабирование. Если эта возможность реализуется графической картой, то для изменения размеров изображения не требуется использования ресурсов центрального процессора.
□ Преобразование сигналов. Поддерживается преобразование YUV—RGB для : обеспечения лучшего воспроизведения видеоинформации на экране монитора.
□ Двойная буферизация. Используется для аппаратного размещения буферов при переключении страниц.
□ Асинхронное отображение. Совместно с двойной буферизацией обеспечивает более быстрый вывод информации в экранный буфер.
Для перспективных моделей мультимедиа-ускорителей очень важна поддержка таких стандартов кодеков, как Indeo, Cinepak, Motion JPEG (M-JPEG) и MPEG.
С появлением Windows 95 интерфейс DCI утратил свою актуальность и перестал поддерживаться операционной системой, уступив место новому ин-терфейсу прикладного программирования {Application Program Interface, API) — DirectX. В состав этого интерфейса входит несколько элементов, управляющих различными подсистемами PC. Одним из таких элементов является DjrectDraw, управляющий использованием прикладными программами аппаратных средств видеоадаптера.
Какие задачи решает DirectDraw? Допустим, прикладная программа выдает команду выполнить аппаратное масштабирование изображения. Если установленный в системе видеоадаптер (а также его драйвер) совместим с DirectX и имеет аппаратную поддержку запрошенной функции, программа DirectDraw обеспечит генерацию оптимального кода для видеоадаптера и тем самым обеспечит максимально быстрое решение поставленной задачи. Если же аппаратная поддержка масштабирования у видеоадаптера отсутствует, DirectDraw произведет программную эмуляцию данной функции на основе доступных данному видеоадаптеру команд 4 отправит эмулирующую программу в CPU. Естественно, во втором случае команда будет выполняться значительно медленнее. В частности, по этой причине большинство прикладных программ сообщают об использовании функций графического ускорения даже тогда, когда видеоадаптер их не поддерживает. Такой "обман" прикладной программы осуществляется за счет совместимости драйвера видеоадаптера с DirectDraw и использования возможностей данного API.
Оборудование стандарта DV
Если вы твердо решили заняться нелинейным монтажом и вас слегка смущают цены на необходимое оборудование (видеобластер, карту ввода/вывода, карту MPEG-кодера и PC соответствующего уровня), частично можно уменьшить затраты, воспользовавшись другим, но не менее перспективным способом ввода видеоинформации в PC.
Это стало возможным благодаря разработке и промышленному изготовлению видеокамер стандарта DV {Digital Video), интерфейса быстрой передачи данных FireWire (IEEE1394), а также повышению мощности PC, позволяющих сделать обработку видео высочайшего качества доступной массовому пользователю.
Формат DV
Формат DV обеспечивает настолько высокое качество изображения, которое в состоянии воспроизвести лишь немногие существующие сегодня телевизоры. Этот формат не уступает, а где-то и превосходит формат Betacam SP, — основной формат телевизионной техники, соответствующий стандарту профессионального качества.
Фактически единственный параметр, по которому Betacam SP превосходит DV — это разрешение, которое составляет 650 твл. по сравнению с 500 твл для DV. Однако этот параметр важен, т. к. при обычной телевизионной трансляции разрешение редко бывает выше 330—380 твл. Другие параметры нового формата не хуже соответствующих параметров для Betacam SP. Так, отношение сигнал/шум составляет 54 дБ, по сравнению с 49 дБ для Betacam SP. Полоса частот сигнала цветности составляет 1,5 МГц, совпадает с Beta-cam SP и шире Полосы частот для форматов S-VHS и Hi8.
Сжатие видеосигнала осуществляется в соотношении 5:1 за счет использования технологии DCT. В соответствии с этой технологией каждый кадр сжимается и записывается индивидуально, обеспечивая точность и простоту монтажа. DV использует вариант сжатия по ключевым кадрам (I-Frame). Аудио- и видеосигналы могут обрабатываться либо вместе, либо по отдельности. Алгоритм обеспечивает поток 27,8 Мбит/с (3,4 Мбайт/с) и имеет симметричную структуру, так что одно и то же устройство может как кодировать, так и декодировать поток данных.
Стандарт DV предусматривает схему исправления ошибок, способную воспроизвести часть кадра без ошибок, даже в случае если на ленте будут искажены две из десяти дорожек.
Мини-кассета формата DV имеет очень маленькие размеры, сопоставимые с размерами коробочки из-под конфет Tic-Tac. В таких кассетах используется магнитная лента шириной всего 6,35 мм. Уменьшение размера кассеты способствовало уменьшению размера собственно видеокамер. Теперь практически любая цифровая видеокамера формата DV весит меньше 1,8 кг, что значительно меньше веса любой видеокамеры (6,5 кг) формата Betacam SP (рис. 16.6). Кроме того, цена на новые цифровые видеокамеры также ниже минимум в 3 раза.
Рис. 16.6. Цифровая видеокамера формата DV DCR VX1000
Видеокамеры формата DV оснащаются интерфейсом IEEE1394 (FireWire), используя который с помощью специальной карты ввода и обработки цифровых сигналов (DV Capture Board) можно переносить цифровую видеоинформацию на жесткий диск компьютера без дополнительной оцифровки. Этот интерфейс позволяет передавать со скоростью от 25 до 50 Мбайт/с видео, аудио, MIDI и команды управления устройствами между специально оборудованными DV-камерами и другой техникой, такой как цифровые видеомагнитофоны и компьютеры. Внешне FireWire выглядит как тонкий гибкий кабель длиной до 4,5 м, поддерживающий до 63 устройств в цепи. Для соединения его с вашим Macintosh или PC необходима соответствующая интерфейсная карта.
Карты ввода и обработки сигналов формата DV
Фирма DPS (Digital Processing System of Ontario) совместно с Adaptec выпустила первую компьютерную систему для монтажа и редактирования видео в формате DV по технологии FireWire.
Комплекс DSP Spark — промышленная система для редактирования видео DV-формата. Это полностью цифровая система, использующая интерфейс Adaptec IEEE 1394 и программное обеспечение фирмы DPS для захвата и записи видео. DV-видеокамера подсоединяется специальным кабелем к PCI-карте DPS Spark.
Цифровые звуковые и видеосигналы записываются непосредственно с магнитной ленты на жесткий диск в реальном времени по тому же FireWire-кабелю. Кроме того, DPS Spark включает полную версию пакета Adobe Premier 4.2, обеспечивая законченное решение для монтажа, редактирования и создания спецэффектов. Эта полностью цифровая система обеспечивает цифровое качество видеоизображения без его ухудшения, сравнимое с Betacam SP, присущее системам обработки аналогового видео на компьютере. Стоит такая система около 900 USD.
Подобный набор оборудования и программного обеспечения был разработан немецкой фирмой Miro. Фирма Radius также анонсировала PCI-карту ввода/вывода DV-сигналов. '"Комплект оборудования будет включать в себя расширение программы Adobe Premier для работы с видеомагнитофонами формата DV, оборудованными интерфейсом FireWire. Цена такой системы всего около 500 USD.
Производители цифровых видеокамер и магнитофонов, компьютеров и периферии, например, такие фирмы, как Apple, PowerComputing, Fuji, Matsushita и Sony, тоже анонсировали поддержку FireWire.
Мультимедийный комплекс фирмы JVC
Фирма JVC разработала мультимедиа-комплекс, который позволяет в любой момент захватить видеоизображение, распечатать его на видеопринтере или, переслав на PC, обработать с помощью обычного графического редактора. Для этого также не нужны никакие дополнительные платы в PC или сложные приборы.
В состав комплекса входят источник видеосигнала (цифровая видеокамера или видеомагнитофон), внешнее устройство для захвата изображения, интерфейс компьютера и видеопринтер (рис. 16.7). Все соединения осуществляются в соответствии с фирменным протоколом JLIP (Joint Level Interface Protocol). Все последние модели видеозаписываюшей аппаратуры фирмы JVC оснащаются этим интерфейсом с соответствующими разъемами JLIP и могут быть включены в состав комплекса. Оборудование, не имеющее такого разъема, может быть подключено к мультимедиа-комплексу через устройство захвата изображения. Первым представителем JLIP-совместимого видеозаписывающего устройства явилась цифровая видеокамера JVC GR-DV1EG (рис. 16.8). Комплекс подключается к компьютеру через стандартный последовательный порт RS-232.
Протокол JLIP
Протокол JLIP осуществляет управление устройствами комплекса с PC, обеспечивает согласованную работу программного обеспечения для захвата изображения,"управление видеопринтером и пересылку оцифрованного изображения между компонентами комплекса.
Протокол обеспечивает двунаправленное управление аудио- и видеооборудованием. Одновременно происходит пересылка информации о цифровом временном коде и других параметрах видеокамеры компьютера, и через тот же последовательный интерфейс компьютер посылает команды управления видеокамере. Однако такое централизованное управление подключенной аппаратурой с PC возможно, только если оно связано друг с другом через JLIP-разъемы соединительного устройства.
Функциональные возможности такой интегрированной мультимедийной видеосистемы обеспечиваются программным обеспечением JLIP Movie Player, которое позволяет производит монтаж до 99 сцен, захватывать изображения и сохранять их на диске. Под управлением JLIP Movie Player можно осуществлять поиск фрагмента по всей длине магнитной ленты в любом направлении и, найдя нужный кадр, Захватить его, пользуясь только мышью. При этом собственно захват кадра и его ввод в PC осуществляется по специальной команде. В процессе осуществления поиска и так называемого "предварительного захвата" в PC вводится образ "захваченного" впоследствии кадра или последовательность образов помеченных кадров. При этом местоположение каждого кадра запоминается в PC. Размер образа составляет несколько десятков килобайт и служит лишь для идентификации кадра. После того как будут отобраны все необходимые изображения, все они могут быть автоматически перенесены в компьютер в виде полноразмерных изображений. Все это осуществляется уже без участия пользователя.
Цифровой видеопринтер
Цифровой видеопринтер GV-PT2 (рис. 16.9) обеспечивает печать 16,77 млн цветов и использует технологию сухой сублимации с градацией полутонов.
Каждая точка образована смешением трех основных цветов: желтого, пурпурного и голубого. GV-PT2 может быть подключен к любому компьютеру, работающему под управлением Windows, с помощью стандартного кабеля Centronics.
Рис. 16.9. Цифровой видеопринтер GV-PT2
Кроме того, принтер может самостоятельно захватывать изображения от любого источника видеосигнала. Благодаря этому появляется возможность печатать неподвижные изображения напрямую с видеомагнитофона или ви-,„; деокамеры без использования компьютера.
Устройство захвата изображения
Устройство захвата изображения GV-CB1 (рис. 16.10) обеспечивает размер изображения 768x552 точек, с 24-битной глубиной представления цвета (16,7 млн цветов). Оно оснащено тремя J-разъемами и может служит в качестве своеобразного Hub-устройства.
ЧАСТЬ V.
АУДИОСИСТЕМА PC
Глава 17. Звуковая карта
Глава 18. Акустическая система
Глава 19. Тенденции развития звуковой системы PC
Звуковая карта
Даже первые PC существенно отличались от калькуляторов и больших ЭВМ тем, что они могли издавать звуки с помощью маленького динамика, установленного в их корпусе. И хотя акустические возможности PC были более чем скромными, уже на заре компьютерной эры появились музыкальные редакторы, с помощью которых можно было создать "звуковой файл" для подключения к той или иной программе.
С появлением в 1989 г. звуковой карты перед пользователями открылись новые возможности PC. И дело даже не в том, что на порядок улучшилось качество звука. Появилась новая (звуковая) подсистема PC (далее система PC) — комплекс программно-аппаратных средств, предназначенный для следующих целей:
□ Записи звуковых сигналов, поступающих от внешних источников, например, микрофона или магнитофона. В процессе записи входные аналоговые звуковые сигналы преобразуются в цифровые и далее могут быть сохранены на винчестере PC.
□ Воспроизведения записанных ранее звуковых данных с помощью внешней акустической системы или головных телефонов (наушников).
Примечание
При воспроизведении звуковой сигнал считывается с винчестера (или другого носителя информации), преобразуется из цифрового в аналоговый и направляется к акустической системе.
□ Микширования (смешивания) при записи или воспроизведении сигналов от нескольких источников.
Примечание
При этом в каждом звуковом канале осуществляется управление уровнем сиг-
нала. Кроме того, регулируется уровень суммарного сигнала (Muster Volume).
Отметим, что звуковые сигналы могут подаваться на микшер как в аналоговой,
так и в цифровой форме.
□Одновременной записи и воспроизведения звуковых сигналов (режим работы звуковой системы, в котором каналы записи и воспроизведения задействованы параллельно, называется Full Duplex).
□ Обработки звуковых сигналов: редактирования, объединения или разделения фрагментов сигнала, фильтрации, изменения его уровня и т. п.
□ Управления панорамой стереофонического звукового сигнала (кажущимся расположением источников звука) и уровнем сигнала в каждом канале при записи и воспроизведении.
□ Обработки звукового сигнала в соответствии с алгоритмами объемного (трехмерного — 3D Sound) звучания, что позволяет получить объемное звуковое поле даже при использовании обычной стереофонической акустической системы.
□ Генерирования с помощью синтезатора звучания музыкальных инструментов (мелодичных и ударных), а также человеческой речи и любых других звуков.
□ Управления работой внешних электронных музыкальных инструментов (ЭМИ) через специальный интерфейс MIDI.
□ Воспроизведения звуковых компакт-дисков.
□ Выполнения таких операций, как управление PC и ввод текста с помощью микрофона (для этого пока необходимо специальное программное обеспечение).
Звуковая система PC выполняется в виде самостоятельных звуковых карт, устанавливаемых в слот материнской платы, либо может быть интегрирована на материнскую плату или карту расширения другой подсистемы PC. Отдельные функциональные модули звуковой системы могут выполняться в виде дочерних плат, устанавливаемых в соответствующие разъемы звуковой карты. Дочерняя плата обычно расширяет базовые возможности звуковой системы.
В классическую звуковую систему (рис. 17.1) входят:
□ Модуль записи и воспроизведения звука
□ Модуль синтезатора
□ Модуль интерфейсов
□ Модуль микшера
□ Акустическая система
Первые четыре модуля, как правило, устанавливаются на звуковой карте. В зависимости от ее класса некоторые из них могут отсутствовать. Так, например, существуют звуковые карты без модуля синтезатора или модуля записи/воспроизведения цифрового звука.
Каждый из модулей может выполняться в виде отдельной микросхемы или входить в состав многофункциональной микросхемы. Таким образом, Chipset звуковой системы может содержать как несколько, так и одну микросхему.
Рис. 17.1. Звуковая система PC
Понятие звуковая система мы ввели, учитывая перспективы развития PC. Дело в том, что смыл термина "звуковая карта" в традиционном понимании в настоящее время теряет смысл. Это связано с различным конструктивным исполнением звуковой системы PC. Возможно, вы уже встречали материнские платы с установленным на них Chipset для обработки звука. В ближайшем будущем появятся звуковые системы принципиально новой архитектуры, основанные на использовании интерфейса AC-link и так называемых надстроечных плат (Riser Card — Ризер-карта).
Однако это дело будущего. Назначение и функции модулей современной звуковой-системы (независимо от ее конструктивного исполнения) не меняются. Поэтому будем использовать традиционное название звуковой системы PC — звуковая карта. Причем термины "звуковая система PC" и "звуковая карта" будем считать синонимами.
Рассмотрим подробнее функциональные модули звуковой карты.
Модуль записи и воспроизведения
Звук, с точки зрения акустики, представляет собой продольные волны сжатия и разряжения, свободно распространяющиеся в воздухе или иной среде, поэтому звуковое давление (звуковой сигнал) непрерывно изменяется во времени и в пространстве.
Запись звука — это сохранение информации о колебаниях звукового давления в момент записи. В настоящее время для записи и передачи информации о звуке используются аналоговые и цифровые сигналы. Другими словами, звуковой сигнал может быть представлен в аналоговой или цифровой форме.
Чтобы получить звуковой сигнал в аналоговой форме, достаточно воспользоваться микрофоном (рис. 17.2).
В этом случае изменению звукового давления в некоторой точке среды будут соответствовать пропорциональные изменения другой физической величины — электрического напряжения, которое станет "носителем" информации о звуке. Напомним, что амплитуда звуковой волны определяет громкость звука, а ее частота — высоту звукового тона, поэтому для сохранения достоверной информации о звуке напряжение электрического сигнала должно быть пропорционально звуковому давлению, а его частота должна точно соответствовать частоте колебаний звукового давления.
Рис. 17.2. Преобразование звукового давления в электрический сигнал
Чтобы получить звуковой сигнал в цифровой форме, необходимо в дискретные моменты времени измерять значение звукового давления, причем чтобы правильно передать форму сигнала, эти измерения надо проводить достаточно часто — не менее нескольких раз за период самой высокочастотной составляющей звукового сигнала. Полученная последовательность чисел будет новой формой представления исходных колебаний звукового давления.
В настоящее время на вход звуковой карты PC в большинстве случаев звуковой сигнал подается в аналоговой форме. А поскольку PC оперирует только цифровыми сигналами, исходный аналоговый сигнал перед использованием должен быть преобразован в цифровой. В свою очередь, акустическая система воспринимает только аналоговые электрические сигналы, поэтому на выход звуковой карты PC должен выдать звуковой сигнал в аналоговой форме.
Модуль записи и воспроизведения звуковой системы как раз и осуществляет аналого-цифровое и цифро-аналоговое преобразование в режиме программной передачи звуковых данных или передачи их по каналам DMA.
Аналого-цифровое преобразование
Преобразование звукового сигнала из аналогового в цифровой происходит в несколько этапов (рис. 17.3).
Рис. 17.3. Схема преобразования звукового сигнала из аналогового в цифровой
Сначала аналоговый звуковой сигнал источника подается на аналоговый фильтр, который ограничивает полосу частот сигнала.
Далее осуществляется дискретизация, т. е. выборка отсчетов аналогового сигнала с заданной периодичностью. Периодичность отсчетов определяется частотой дискретизации, В свою очередь, частота дискретизации должна быть не менее удвоенной частоты наивысшей гармоники (частотной составляющей) исходного звукового сигнала. В противном случае оцифрованный звуковой сигнал нельзя будет преобразовать в аналоговый, точно соответствующий исходному сигналу.
Поскольку человек способен слышать звуки, частота которых находится в диапазоне от 20 Гц до 20 кГц, следовательно, максимальная частота дискретизации исходного звукового сигнала должна составлять не менее 40 кГц, т. е. отсчеты требуется проводить 40000 раз в секунду. В большинстве современных звуковых подсистем PC максимальная частота дискретизации звукового сигнала составляет 44,1 или 48 кГц.
Одновременно с дискретизацией осуществляется квантование отсчетов по амплитуде — мгновенные значения амплитуды измеряются и преобразуются в цифровой код. При этом точность измерения зависит от количества разрядов кодового слова. Если значения амплитуды записать с помощью двоичных чисел и задать длину кодового слова N разрядов, то количество возможных значений кодовых слов будет равно 2N. Столько же может быть и уровней квантования амплитуды отсчета. Например, если значение амплитуды отсчета представляется 16-разрядным кодовым словом, то максимальное количество градаций амплитуды (уровней квантования) составит 216 = 65536. Для 8-разрядного представления, соответственно, получим 28 = = 256 градаций амплитуды. На рис 17.4 показан процесс квантования по уровню аналогового сигнала, причем мгновенные значения амплитуды кодируются 3- (рис. 17.4, а) и 4-разрядными (рис. 17.4, б) числами.
При аналого-цифровом преобразовании каждый бит кодового слова примерно соответствует 6 дБ. Следовательно при 8-разрядном представлении амплитуды отсчета можно получить динамический диапазон 48 дБ, что соответствует качеству звучания кассетного магнитофона, а при 16-разрядном — 96 дБ, т. е. 32767 уровней квантования (один бит отводится для знака числа), что уже соответствует качеству воспроизведения компакт-дисков.
Аналого-цифровое преобразование осуществляется специальным электронным устройством— аналого-цифровым преобразователем (АЦП), в котором дискретные отсчеты сигнала преобразуются в последовательность чисел, причем поток цифровых данных, представляющих аналоговый сигнал, включает как полезные, так и нежелательные высокочастотные компоненты и помехи. Для фильтрации высокочастотных помех полученные цифровые данные пропускаются через цифровой фильтр с высокой крутизной амплитудно-частотной характеристики и малыми фазовыми искажениями.
Рис. 17.4. Дискретизация по времени и квантование по уровню аналогового сигнала
Цифро-аналоговое преобразование
Цифро-аналоговое преобразование в общем случае происходит в два этапа (рис. 17.5). На первом этапе из потока цифровых данных с помощью цифро-аналогового преобразователя (ЦАП) выделяют отсчеты сигнала, следующие с частотой дискретизации. На втором этапе из дискретных отсчетов путем сглаживания (интерполяции) формируется непрерывный аналоговый сигнал. Это делает фильтр низкой частоты, который подавляет периодические составляющие спектра дискретного сигнала.
Рис. 17.5. Схема цифро-аналогового преобразования
Для записи и хранения звукового сигнала в цифровой форме требуется большой объем дискового пространства. Чем выше требования к качеству записываемого звука, тем больше должна быть емкость носителя. Например, стереофонический звуковой сигнал длительностью 60 с, оцифрованный с частотой дискретизации 44,1 кГц, при 16-разрядном квантовании для хранения потребует на винчестере около 10 Мбайт. Кроме того, при записи высококачественного звукового сигнала в реальном времени возникают дополнительные требования к производительности (пропускной способности) канала звукозаписи — все устройства, формирующие этот канал, должны успевать обрабатывать поток данных, поступающих на его вход.
Существенно снизить объем цифровых данных, необходимых для представления звукового сигнала с заданным качеством, можно с помощью компрессии, т. е. путем уменьшения количества отсчетов и уровней квантования или числа бит, приходящихся на один отсчет.
Благодаря особенностям восприятия звука человеком можно с помощью специальных методов компрессии данных с потерями сжимать звуковые данные, используя спектральные свойства оцифрованных музыкальных и речевых сигналов. При применении таких методов не ставится цель абсолютно точного восстановления исходных звуковых колебаний. Главная задача — достижение максимального сжатия звукового сигнала при минимальных субъективно- слышимых (или неслышимых) искажениях восстановленного сигнала. Методы кодирования звуковых данных позволяют сократить объем потока информации почти до 20% от первоначального. При этом используются довольно сложные кодирующие устройства.
Выбор метода кодирования при записи звукового фрагмента зависит от набора программ сжатия, установленных в операционной системе PC — кодеков (кодирование-декодирование). Программы аудиосжатия поставляются вместе с программным обеспечением звуковой карты или могут входить в состав операционной системы (рис. 17.6). Программы аудиосжатия реализуют, например, следующие методы:
□ Импульсно-кодовая модуляция(Pulse Code Modulation, PCM).
□Дельта-импульсно-кодовая модуляция (Delta Pulse Code Modulation, DP CM).
□ Адаптивная разностная дельта-модуляция (Adaptive Differential Pulse Code Modulation, AD PCM).
Рис. 17.6. Стандартные программы операционной системы Windows 98 для сжатия аудиоданных
Способ кодирования задается непосредственно перед записью (оцифровкой) звукового сигнала с помощью опций выбранной программы записи.
Характеристики модуля записи и воспроизведения
Модуль записи и воспроизведения цифрового звука включает АЦП, ЦАП и блок управления, которые, как правило, интегрированы в одну микросхему, называемую кодеком.
Основными характеристиками, этого модуля являются:
□ Частота дискретизации
□ Тип и разрядность АЦП и ЦАП
□ Способ кодирования аудиоданных
□ Возможность работы в режиме Full Duplex
Частота дискретизации определяет максимальную частоту записываемого или воспроизводимого сигнала. Так, для записи и воспроизведения человеческой речи достаточно 6—8 кГц, для записи и воспроизведения музыки с невысоким качеством — 20—25 кГц, для обеспечения высококачественного звучания (качества аудиокомпакт-диска) частота дискретизации должна быть не менее 44 кГц.
Частоту дискретизации сигнала, обеспечиваемую большинством звуковых карт, можно повысить, если вместо стереофонического сигнала с частотой дискретизации 22 кГц использовать монофонический сигнал с частотой дискретизации 44 кГц. Подобное решение было впервые реализовано в звуковой карте Sound Blaster Pro (изготовитель — фирма Creative Labs). Практически все звуковые карты поддерживают запись и воспроизведение стереофонического звукового сигнала с частотой дискретизации 44,1 или 48 кГц.
Разрядность АЦП и ЦАП определяет разрядность представления цифрового сигнала (8, 16 или 18 бит), динамический диапазон (выраженное в децибелах отношение максимального и минимального уровней) и уровень шумов квантования. 8-разрядные АЦП и ЦАП обеспечивают качество звука, близкое к качеству звука в телефонной линии, и в настоящее время не используются. Подавляющее большинство звуковых карт оснащено 16-разрядными АЦП и ЦАП. Такие звуковые карты теоретически можно отнести к классу Hi-Fi, которые должны обеспечивать студийное качество звучания. Однако на практике другие элементы тракта звукозаписи понижают качество записи звука. Некоторые современные звуковые карты оснащаются 20- и даже 24-разрядными АЦП и ЦАП, что существенно повышает качество записи/воспроизведения звука.
Важной характеристикой модуля записи и воспроизведения звука является возможность одновременной записи и воспроизведения звукового сигнала. Существуют три режима передачи данных по какому-либо каналу (тракту), определяющие направление передачи сигнала (рис. 17.7): симплекс, полудуплекс и дуплекс, причем последний чаще называют Full Duplex (полный дуплекс).
Рис. 17.7. Направления передачи данных в различных режимах
В симплексном режиме данные передаются по каналу только в одном направлении. В полудуплексном режиме в течение одного промежутка времени данные передаются в одном направлении, а в течение другого — в обратном. В дуплексном режиме данные передаются одновременно в обоих направлениях.
В режиме Full Duplex звуковая система может, одновременно принимать (записывать) и передавать (воспроизводить) аудиоданные. Однако далеко не все звуковые карты поддерживают этот режим в полном объеме, т. е, они не в состоянии обеспечить высокое качество звука при интенсивном обмене данными. Используя такие карты, можно работать с голосовыми данными в Internet, например, при проведении телеконференций, когда высокое качество звука не требуется. Не следует одновременно применять эти карты для записи на винчестер и воспроизведения звука (такой режим называется запись с наложением). Для этого требуются звуковые карты более высокого уровня.
Электромузыкальный цифровой синтезатор (далее — синтезатор) звуковой подсистемы позволяет генерировать практически любые звуки, в том числе и звучание реальных музыкальных инструментов.
Принцип синтезирования заключается в воссоздании структуры музыкального тона (ноты). Созданный с помощью музыкального инструмента звуковой сигнал, как правило, имеет несколько временных фаз (рис. 17.8). Например, при нажатии клавиши рояля амплитуда звукового сигнала сначала максимальна, а затем немного уменьшается. Эта фаза называется атакой. Длительность атаки для разных музыкальных инструментов изменяется в пределах от единиц до нескольких десятков или даже до сотен миллисекунд. После атаки начинается следующая фаза, называемая поддержкой, в течение которой амплитуда сигнала почти не изменяется. Высота музыкального тона формируется во время поддержки. Последней фазе (затуханию) соответствует участок достаточно быстрого уменьшения амплитуды сигнала. Совокупность этих фаз называется амплитудной огибающей.
Форма амплитудной огибающей зависит от типа музыкального инструмента, но выделенные фазы характерны для звуков практически всех музыкальных инструментов (за исключением ударных).
В общем случае технология создания звука (голоса инструмента) в современных синтезаторах (рис. 17.9) заключается примерно в следующем. С помощью цифрового устройства, использующего один из методов синтеза, генерируется так называемый сигнал возбуждения с заданной высотой звука (нота). Сигнал возбуждения должен иметь спектральные характеристики, максимально близкие к характеристикам имитируемого музыкального инструмента на стадии поддержки. Далее сигнал возбуждения подается на фильтр, имитирующий амплитудно-частотную характеристику реального музыкального инструмента (тембровая окраска). На другой вход фильтра поступает сигнал амплитудной огибающей, характерный для данного типа музыкального инструмента. После этого сигнал можно дополнительно обработать с целью получения специальных звуковых эффектов, например, эха в помещении (электронный музыкальный эффект, называемый реверберацией), звучания хора (эффект хорус) и т. п.
Рис. 17.9. Создание голоса инструмента в современных синтезаторах
Если необходимо одновременно генерировать звучание нескольких разных музыкальных инструментов, то в мощных синтезаторах большинство описанных операций будет выполняться для каждой ноты каждого инструмента отдельно. Результирующий сигнал образуется в результате суммирования в цифровом виде (!) всех компонентов звуков. Затем в ЦАП результирующий звуковой сигнал преобразуется из цифрового в аналоговый. В синтезаторах некоторых моделей перечисленные этапы могут быть упрощены или вовсе отсутствовать.
Обычно имена синтезаторов соответствуют методу синтеза (типу генератора возбуждения). В настоящее время на звуковых картах устанавливаются синтезаторы, генерирующие звук с использованием:
□ Частотной модуляции {Frequency Modulation Synthesis) — FM-синтеза
□ Таблицы волн (Wave Table Synthesis) — WT-синтеза
□ Физического моделирования
Синтез звука на основе частотной модуляции
Любой звук характеризуется высотой (основного тона) и дополнительными гармониками — обертонами, — определяющими тембр звучания конкретного тона. Высота звука зависит от частоты основного тона. Обертоны, даже если их сила велика, на ощущение высоты звука влияют мало, но придают ему своеобразную окраску. Способность человеческого уха разложить сложный звук на гармонические составляющие (основной тон и обертоны) позволяет различать звуки, например, отличить ноту до, взятую на кларнете, от той же ноты, взятой на рояле.
Таким образом, если синтезировать сигналы основного тона и обертонов, присущих звучанию конкретного инструмента, можно имитировать звук практически любой ноты этого инструмента.
Как уже отмечалось, высота созданного с помощью музыкального инструмента звукового сигнала характеризуется частотой и формой амплитудной огибающей. От формы амплитудной огибающей зависит также и спектральный состав обертонов. Обычно в фазе атаки количество высокочастотных составляющих максимально и постепенно уменьшается на стадиях поддержки и затухания. Особенно это свойственно звуку смычковых и клавишных инструментов. Следовательно, в простейшем случае для генерации голоса музыкального инструмента достаточно двух генераторов сигналов сложной формы: генератора несущей частоты и модулирующего генератора (рис. 17.10). Генератор несущей частоты формирует сигнал основного тона, частотно-модулированный сигналом обертонов. Модулирующий генератор (генератор огибающей) управляет индексом модуляции сигнала основного тона и амплитудой результирующего сигнала. Управление генераторами (настройка частоты, выбор формы амплитудной огибающей, режим работы и т. п.) осуществляется путем подачи на его вход цифрового кода. Эти генераторы называются операторами.
Такой способ не позволяет получить много спектральных составляющих звукового сигнала, поэтому в реальных FM-синтезаторах используется не два, а шесть и более операторов, модулирующих друг друга. При этом создание новых звуков осуществляется на основе эмпирических методов путем выбора определенных соотношений частот и схем соединения операторов. Варианты соединения операторов называют FM-алгоритмами. В первых звуковых картах использовался двухоператорный синтез, т. е. в создании голоса одного инструмента (тембра) участвовало только два генератора. FM-синтезаторы современных звуковых карт могут работать в двух-, четырех- и т. д. операторных режимах.
Рис. 17.10. Синтез звука на основе частотной модуляции
Каждый оператор может формировать сигнал одной из определенных форм (waveform). В соответствии с FM-алгоритмом операторы могут соединяться по-разному. Например, выходные сигналы операторов могут суммироваться (аддитивный синтез). При последовательном соединении с петлей обратной связи второй оператор будет задавать основной тон сигнала (являться генератором несущей), а первый — определять обертоны (является модулятором). В этом случае сигнал с выхода первого операторы поступает на вход второго, а с выхода второго — на вход первого.
Звуковые карты с FM-синтезаторами обеспечивают высокую повторяемость тембров. Например, партия скрипки, записанная с использованием FM-синтезатора одной модели, будет звучать практически без искажений на FM-синтезаторах других моделей. К настоящему времени накоплено большое количество FM-алгоритмов синтеза оригинальных звучаний (тембров).
Однако, поскольку процесс синтеза во времени совмещен с процессом исполнения музыки, значительно возрастают требования к суммарной производительности PC и собственно FM-синтезатора. Действительно, чем выше требования к точности воспроизведения звучания музыкального инструмента, тем большее количество генераторов должно быть задействовано. При этом алгоритм управления генераторами окажется достаточно сложным — ведь необходимо учитывать малейшие оттенки звучания, присущие конкретному инструменту. Для уменьшения объема вычислений в звуковых картах используются упрощенные алгоритмы, при этом голос инструмента формируется минимальным количеством генераторов. Это приводит к тому, что звуковые карты с FM-синтезатором формируют небольшое количество благозвучных тембров. Вследствие этого имитация звучания реальных музыкальных инструментов оказывается очень грубой.
Синтез звука на основе таблицы волн
При использовании синтеза звука на основе таблицы волн (WT-синтез) , можно получить более реалистичное и качественное звучание, чем при использовании FM-синтеза. В WT-синтезаторе используются предварительно оцифрованные образцы звучания реальных музыкальных инструментов и других звуков. Каждый образец звучания, называемый патчем (Patch), или инструмент, включает в себя один или несколько сэмплов (Samples), организованных определенным образом. Сэмпл — это оцифрованный фрагмент реального звука, определенный тон музыкального инструмента или, например, звук выстрела.
Как известно, с помощью специальных алгоритмов даже по одному тону музыкального инструмента можно воспроизвести все остальные и таким образом полностью восстановить звучание инструмента во всем рабочем диапазоне частот (рис. 17.11). Например, если сэмпл, оцифрованный с частотой 44,1 кГц, воспроизвести с удвоенной частотой 88,2 кГц (вдвое быстрее), то высота звука возрастет на октаву. Если же воспроизводить сигнал с пониженной частотой, то высота звука уменьшится. Таким образом, путем воспроизведения сэмпла с разной скоростью, в принципе, можно получить звук любой высоты.
Рис. 17.11. Синтез звука с помощью WT-синтезатора
Такой принцип генерации звука реализован в так называемых сэмплерах — прообразах WT-синтезаторов. Сэмплер представляет собой устройство, с помощью которого можно записывать звуки реального инструмента с микрофона и затем воспроизводить с разной скоростью. Однако при генерации звука таким способом одновременно с изменением скорости воспроизведения и, соответственно, высоты звука будет изменяться длительность атаки затухания сигнала, что приведет к искажению тембра синтезируемого инструмента.
Поэтому в WT-синтезаторах применяется другой способ изменения высоты звука. Оцифровке подвергаются несколько разных по высоте звуков реального музыкального инструмента, перекрывающих весь его рабочий частотный диапазон. Шаг по частоте должен быть достаточно мал, чтобы изменения тембра не были слышны. Для недорогих WT-синтезаторов достаточной считается оцифровка звучания музыкального инструмента с интервалом пол-октавы.
После оцифровки все сэмплы (или их часть) объединяются в патч, т, е. набор фрагментов звучания реального инструмента во всем рабочем диапазоне частот. Именно поэтому термины патч и инструмент являются синонимами.
При генерации звука определенной высоты WT-синтезатор определяет, в каком частотном диапазоне находится звук, выбирает сэмплы, частота которых наиболее близка к частоте генерируемого звука, и изменяет частоту основного тона этих сэмплов на конкретную величину.
Кроме того, звучание некоторых музыкальных инструментов становится более реалистичным и выразительным при одновременном воспроизведении нескольких сэмплов, т. е. звучание инструмента (голос) может формироваться путем наложения нескольких сэмплов.
В свою очередь, инструменты объединяются в банки (рис. 17.12). Банки с инструментами обычно хранятся в специальной ROM, выполненной в виде отдельной микросхемы памяти или интегрированной в микросхему WT-синтезатора. Кроме того, банки инструментов могут храниться на винчестере PC и перед работой загружаться в оперативную память (обычно располагается на звуковой карте) WT-синтезатора или RAM PC (технология Downloadable Sample, DLS).
Поскольку качество звука, синтезируемого WT-синтезатором звуковой карты, непосредственно зависит от качества патчей, желательно иметь сэмплы высокого качества (с высоким разрешением записи), что в свою очередь приводит к росту объема банка инструментов. Однако WT-синтезаторы обычных звуковых карт имеют небольшой объем памяти. Это достигается путем увеличения шага по частоте основного тона при оцифровке звука, уменьшения длительности сэмплов и, наконец, за счет компрессии сэмплов.
Минимальный набор банка инструментов для WT-синтезатора в соответствии со спецификацией General MIDI включает 128 инструментов.
Синтез звука на основе физического моделирования
В отличие от синтеза звука на основе таблицы волн, где источником сигнала являются оцифрованные образцы звуков реальных музыкальных инструментов, хранящиеся в памяти синтезатора, физическое моделирование предусматривает использование математических моделей звукообразования реальных музыкальных инструментов для генерации в цифровом виде соответствующих волновых форм, которые затем преобразуются в звуковой сигнал при помощи ЦАП.
Принцип синтеза звука на основе физического моделирования рассмотрим на примере синтеза звука саксофона. Допустим, существует точное математическое описание явлений, происходящих в саксофоне. В качестве источника колебаний воздуха выступает трость. Звук усиливается и окрашивается в резонаторе, в качестве которого выступает изогнутая металлическая труба. Синтезатор рассчитывает изменение колебаний воздуха, которые возникают под влиянием движения трости саксофона. На основании полученных данных создается цифровой образ этих колебаний. Затем рассчитываются все изменения, происходящие со звуком в резонаторе и в соответствии с результатами расчетов формируется цифровая модель звукового сигнала саксофона. Смоделированный цифровой звуковой сигнал преобразуется в электрические колебания с помощью ЦАП звуковой карты.
Фирма Yamaha (пионер в области физического моделирования) производит в настоящее время синтезаторы, имитирующие звучание духовых и струнных инструментов. С помощью этих синтезаторов можно экспериментировать в области формирования звука, комбинируя различные источники колебаний с различными резонаторами и обрабатывая получившийся звук всевозможными фильтрами.
По принципу физического моделирования звука работают так называемые программные (виртуальные) синтезаторы. Необходимые расчеты звучания инструментов вместо аппаратного синтезатора звуковой карты выполняет CPU PC. Результат математического моделирования, т. е. поток цифровых данных — от виртуального синтезатора направляется в ЦАП звуковой карты.
Звуковые карты, использующие синтез звука на основе физического моделирования, пока не получили широкого распространения, поскольку для их работы требуется мощный PC.
Характеристики модуля синтезатора
Основными характеристиками модуля синтезатора звуковой системы являются:
□ Метод синтеза звука.
□ Объем памяти для хранения патчей.
□ Возможность аппаратной обработки сигнала для создания звуковых эффектов.
□ Полифония — максимальное количество одновременно воспроизводимых элементарных звуков.
Примечание
Полифония определяется числом генераторов синтезатора (реальных или виртуальных).
Метод синтеза, использующийся в звуковой системе PC, определяет не только качество звука, но и ее состав. Заметим, что звуковая система PC может содержать несколько синтезаторов.
FM-синтезатор используется практически во всех недорогих звуковых картах. Качество звука при использовании FM-синтезатора получается достаточно приемлемым и в большинстве случаев способно удовлетворить запросы неискушенных пользователей. Для карт с FM-синтезаторами полифония обычно составляет 20 голосов. Звуковые эффекты не реализуются.
В случае WT-синтеза звук генерируется с высоким качеством. При этом звуковая подсистема должна содержать специальный WT-синтезатор.
На звуковых картах с WT-синтезатором устанавливаются элементы памяти (ROM) для хранения банков с инструментами. Объем памяти WT-синтеза-тора может быть изменен за счет установки дополнительных модулей памяти (рис. 17.13). Тип и количество элементов памяти (RAM или ROM) зависит от конкретной модели звуковой карты.
Увеличив объем памяти звуковой карты, вы можете загружать дополнительные банки инструментов, использовать более качественные патчи (большего объема), а также редактировать существующие или создавать новые. Большинство игр для PC используют набор стандартных инструментов (General MIDI), поэтому увеличение объема памяти отразится на качестве звукового сопровождения игры только в том случае, если эта игра использует собственные инструменты. А вот звучание МIDI-файлов после загрузки нового банка инструментов может измениться кардинально — как в лучшую, так и в худшую сторону.
Рис. 17.13. Дополнительные модули памяти на звуковой карте с WT-синтезатором
Для большинства карт с WT-синтезом эффекты реверберации и хоруса стали стандартными. При использовании временной задержки фазы или амплитуды сигнала можно получить и другие звуковые эффекты. Обработка исходного сигнала для создания эффекта в большинстве случаев осуществляется специальным эффект-процессором, который может являться самостоятельным элементом (микросхемой) или интегрироваться в состав WT-синтезатора.
В зависимости от уровня сложности обработки сигнала эффект-процессор по-разному создает звуковые эффекты: в одном случае применяет эффект с заранее заданными фиксированными параметрами, в другом — позволяет управлять параметрами эффекта, влияющими на тембровую окраску звука.
Различают общие, поканальные и поголосовые эффект-процессоры. Первые обрабатывают звук всех каналов синтезатора одновременно, вторые — звучание отдельных MIDI-каналов, третьи — звучание отдельных голосов синтезатора. Количество и типы эффектов, которые могут быть одновременно применены к различным каналам (голосам), зависит от мощности процессора. Сложные эффекты обычно не могут накладываться на несколько каналов одновременно. Многосекционные процессоры допускают разделение секций между каналами, позволяя задавать либо простые эффекты для многих каналов, либо сложные — для одного-двух. Эффект-процессор может также иметь отдельные секции для каждого голоса. В этом случае возможна регулировка глубины и параметров звукового эффекта каждого голоса отдельно. Как правило, звуковые данные обрабатываются специализированными методами, требующими большого количества вычислений, что ведет к значительной загрузке CPU и снижению производительности PC в целом. Поэтому часто для ускорения процессов Обработки аудиоданных в состав звуковой системы может дополнительно входить цифровой сигнальный процессор (Digital Signal Processor, DSP). Ведущими производителями DSP являются такие известные фирмы, как Analog Devices (AD), Texas Instruments (TI), Motorola. DSP — это специализированный быстродействующий RISC-процессор, используемый для сложной обработки сигналов (звука в том числе) в реальном времени. Он обрабатывает звуковые данные в сотни раз быстрее, чем процессоры общего назначения, поэтому для него не составляет никакого труда, например, разложить поступающий звук на спектральные компоненты, "вырезать" мелодию нужного музыкального инструмента из фонограммы оркестра, выступить в роли эквалайзера, и т. п. Так, анализируя спектр поступающих монофонических звуковых сигналов, DSP способен выделить звуки, характерные для какого-либо инструмента или группы инструментов, и разместить каждый инструмент в пространстве, тем самым создавая настоящий стереоэффект. Эффект-процессор может обрабатывать аудиотреки и MIDI-партии, причем и то и другое с поканальным управлением. Главное достоинство современных DSP — возможность выполнять функции нескольких устройств звуковой системы одновременно, что позволяет отказаться от ее классической архитектуры. В настоящее время в продаже появились звуковые карты, WT-синтезатор, эффект-процессор и модуль оцифровки которых реализованы программно на базе мощного DSP. Новая архитектура прежде всего увеличивает гибкость системы. Изменяя программу (операционную систему синтезатора), можно изменять структуру синтеза и возможности эффект-процессора. Если возникнет необходимость что-то модифицировать в синтезаторе, устранить ошибку или добавить новую функцию, достаточно переработать программу DSP, а при использовании классической архитектуры пришлось бы заменять микросхему или целиком звуковую карту.
Модуль интерфейсов обеспечивает обмен данными между звуковой системой и другими устройствами — как внешними, так и внутренними.
С одной стороны, звуковые карты с интерфейсом ISA позволяют решать большинство задач обработки звуковых данных, длительное время эксплуатируются и широко представлены на рынке. Однако с другой стороны, все чаще возникает необходимость в нестандартных функциях обработки и передачи звуковых данных. Так, технологии объемного звука уже сегодня требуют, чтобы звуковая система PC обеспечивала параллельную обработку до восьми потоков звуковых данных. Передача же звуковых данных через шину ISA может "отнять" значительную часть ее полосы пропускания, составляющую от 2 до 6 Мбит/с. А попытка одновременной передачи двух и более потоков звуковых данных приведет к перегрузке (переполнению) шины ISA, что немедленно скажется на качестве воспроизведения звука.
Очевидно, что наступил момент перехода для звуковой системы на новые шины. Первым, но не единственным, претендентом на замещение шины ISA является шина PCI (рис. 17.14).
Рис. 17.14. Подключение звуковых устройств с интерфейсами ISA и РСI
Прежде всего, шина PCI имеет более широкую полосу пропускания. В соответствии с версией 1.0 спецификации на шину, PCI должна обеспечивать полосу пропускания более 100 Мбит/с, а версия 2.1 — более 260 Мбит/с. Это означает, что по шине PCI можно передавать потоки звуковых данных параллельно.
Не менее важно, чтобы выходной поток звуковых данных не прерывался при передаче. В силу высокого быстродействия шина PCI обеспечивает возможность кооперативной обработки звуковых данных (задачи обработки и передачи данных распределяются между CPU и звуковой системой). Причем, звуковая система для обработки таких данных может привлекать внешние звуковые устройства.
При переходе звуковой системы с интерфейса ISA на PCI существует потенциальная проблема совместимости ее со старыми программами — DOS-приложениями и, главным образом, с играми. Практически все звуковые карты с интерфейсом ISA (например, популярная карта Sound Blaster) для передачи звуковых данных используют прямой доступ к памяти (DMA) и линии запросов на прерывания (IRQ). Для шины PCI указанные возможности не реализованы и обеспечение совместимости со старыми звуковыми приложениями — одна из серьезных проблем для разработчиков звуковых устройств с интерфейсом PCI. I.
Возможно, многие созданные ранее приложения не будут работать со звуковой системой PC без шины ISA.
Повышение качества звука в PC является не менее важным фактором, определяющим необходимость использования интерфейса PCI. В частности, за счет использования шины PCI можно повысить отношение сигнал/шум для передаваемого сигнала до 90 дБ и более, в то время как шина ISA в состоянии обеспечить не более 85 дБ.
MIDI-интерфейс
MIDI (Musical Instrument Digital Interface) — это цифровой интерфейс музыкальных инструментов. Интерфейс MIDI регламентируется специальным стандартом, включающим спецификации на аппаратный интерфейс (типы каналов, кабели, порты), при помощи которого MIDI-устройства могут подключаться друг к другу, а также описание протокола обмена информацией между MIDI-устройствами. Этот протокол (т. е. порядок обмена данными) позволяет электронным музыкальным инструментам обмениваться информацией и работать совместно. Однако с помощью MIDI-протокола можно управлять не только музыкальными инструментами, но и любыми другими электронными устройствами, способными воспринимать язык MIDI-команд. Например, во время выступления музыкантов на сцене с помощью MIDI-команд можно управлять осветительной аппаратурой, пиротехническими устройствами для создания фейерверков, видеооборудованием, что, согласитесь, весьма удобно.
С технической точки зрения MIDI представляет собой обычный последовательный асинхронный интерфейс типа "токовая петля" со скоростью передачи 31,25 Кбод, источником тока в которой является источник информации. С целью уменьшения уровня помех, упрощения синхронизации и возможности программной реализации приемопередатчиков в некоторых моделях музыкальных синтезаторов скорость обмена для MIDI-устройств выбрана кратной тактовой частоте дискретизации звукового сигнала.
Для уменьшения уровня помех MIDI-интерфейс предусматривает гальваническую развязку между устройствами, т. е. при соединении друг с другом MIDI-устройства не будут иметь непосредственного электрического контакта (гальванической связи). Гальваническая развязка реализуется с помощью оптрона, включенного во входную цепь MIDI-интерфейса. Оптрон состоит из светодиода и фотодиода, объединенных в одном корпусе. При передаче сигнала (1) светодиод начинает светиться, а при отсутствии сигнала (0) — гаснет. Поток оптического излучения направляется на фотодиод, который преобразует энергию света в электрическую, при этом чем больше энергия излучения, тем сильнее ток. Таким образом, обмен информацией между MIDI-устройствами происходит по схеме: электрический сигнал — оптический сигнал — электрический сигнал. Схема обеспечивает прохождение сигнала, а шумы отсекаются.
Устройства с MIDI-интерфейсом соединяются друг с другом последовательно, образуя своеобразную цепочку (рис. 17.15), которую обычно называют MIDI-сетью.
Сеть MIDI-устройств включает контроллер (передатчик, или управляющее устройство), в роли которого может выступать как PC, так и обычный музыкальный клавишный синтезатор, а также ведомые устройства (приемники), которые могут передавать информацию в контроллер по его запросу. Каждое устройство в такой сети может одновременно служить ретранслятором MIDI-сигналов для следующего, за ним. В процессе работы направление потока данных между приемником и передатчиком может меняться, однако одновременная передача данных в двух направлениях невозможна.
Любое MIDI-устройство имеет специальные порты ввода/вывода данных (MIDI-порты). Внешний вид пятиконтактного разъема для подключения MIDI-устройств изображен на рис. 17.16.
Рис. 17.16. Разъем и. распайка кабеля для подключения MIDI-устройств
Разъем выполнен в соответствии со спецификацией DIN41524. Возможно, вы не раз встречали подобные разъемы на отечественной бытовой аудиоаппаратуре. MIDI-порты обеспечивают прохождение всей информации (данных и команд) в сети MIDI-устройств. Порты называются соответственно:
□ MIDI IN — порт ввода данных
□ MIDI OUT — порт вывода данных
□ MIDI THRU — порт сквозной передачи данных
Порт MIDI IN предназначен для ввода MIDI-данных. Через него информация от внешних источников (в том числе контроллера) попадает в MIDI-устройство и управляет его работой.
Через порт MIDI OUT данные отправляются к другим (внешним) MIDI-устройствам. Эти MIDI-данные формируются в процессе активности (игры) MIDI-устройства и, например, для клавишного синтезатора могут содержать сообщения о нажатии клавиши, смене патчей и т. п.
Порт MIDI THRU используется для сквозной передачи информации внешним MIDI-устройствам. Причем само MIDI-устройство лишь пропускает через себя и выдает в порт MIDI THRU (с небольшой временной задержкой) без каких-либо изменений MIDI-данные и команды, поступающие в порт MIDI IN от других MIDI-устройств.
Порты MIDI-устройств соединяются с помощью специального пятижильного кабеля, в котором фактически используются только три провода из пяти. На разъеме (см. рис. 17.16) контакты 1 и 3 соединяются с информационными каналами, контакт 2 — с экраном и "землей", а контакты 4 и 5 остаются незадействованными. MIDI-кабель заземляется и экранируется, чтобы исключить помехи и гарантировать корректную передачу данных.
При соединении MIDI-устройств в сеть важное значение имеет максимальная длина кабеля. Общая (суммарная) длина MIDI-цепочки не ограничена, а максимальная длина сегмента кабеля между двумя MIDI-устройствами не должны быть более 15 м.
В процессе работы MIDI-устройства обмениваются специальными MID1-сообщениями, в соответствии с которыми синтезатор узнает, например, когда начать и когда закончить воспроизводить ноту, какой уровень громкости следует установить и т.п. Кроме того, сообщение может содержать специфические данные об аппаратной настройке MIDI-устройства. Например, синтезатор может получить команду сменить инструмент (использовать кларнет вместо трубы, т. е. сменить патч), изменить общую громкость. Кроме того, полученное сообщение может содержать информацию о том, как следует принимать данные.
Протокол MIDI предусматривает байтовый формат передаваемой информации. Минимальное количество данных, передаваемое за один раз (посылка), содержит один стартовый, -восемь информационных, один контрольный и два стоповых бита. Контрольный бит всегда равен нулю.
Протокол MIDI регламентирует обмен информацией в сети блоками данных различной длины (блок может содержать несколько посылок). Такие блоки иначе называются MIDI-сообщениями. Существует несколько типов MIDI-сообщений, соответствующих двум режимам управления MIDI-устройствами в сети (рис. 17.17).
Рис. 17.17. Типы MIDI-сообщений
В первом режиме происходит управление одновременно всеми инструментами. Для этого используются безадресные команды, называемые системными сообщениями (System Message). Системные сообщения и предназначены для всех устройств, подключенных к MIDI-интерфейсу. Системные сообщения используются в служебных целях, ими являются команды старта, системный сброс, метка реального времени, необходимые для взаимной синхронизации MIDI-устройств.
Во втором режиме происходит передача команд и параметров к отдельным MIDI-устройствам. При этом в код команды включается адрес MIDI-устройства в сети. Такие MIDI-сообщения называются канальными (Channel Message). Канальные сообщения используются для управления звучанием музыкального инструмента— канальные сообщения о звуке (Channel Voice Message) — и определения реакции инструмента на голосовые сообщения — канальные сообщения режима (Channel Mode Message). Канальные сообщения формируются отдельно для каждого канала.
Каждое принимающее MIDI-устройство (соединенное через порт IN) в сети отбирает из потока передаваемых сообщений только те, которые адресованы ему (идентификация происходит по совпадению своего адреса с номером логического канала, содержащегося в первом байте MIDI-сообщения). Адреса MIDI-устройств в сети могут устанавливаться либо аппаратно, либо программно после команды системного сброса программой инициализации MIDI-системы. Таким образом, осуществляется гибкая коммутация (связь) физических устройств на логические каналы MIDI-системы. Передача любой команды (MIDI-сообщения), которая определяется по наличию и значению байта состояния, переключает принимающее MIDI-устройство в режим ожидания, а следующие несколько байтов (количество дополнительных байтов определяется командой) принимаются как тело сообщения (рис. 17.18). Остальные MIDI-устройства в сети, работающие на прием, игнорируют передаваемые байты вплоть до следующей команды. Переданная команда может также инициировать обратную передачу информации в контроллер (управляющее MIDI-устройство), но поскольку это происходит лишь в одном из MIDI-устройств, конфликтов передачи по единой выходной линии не бывает.
Для сопряжения IBM PC с MIDI-устройствами фирма Roland разработала специальный интерфейс. PC с таким интерфейсом становится полноправным устройством в MIDI-сети и может соединяться с клавишными синтезаторами, MIDI-клавиатурами, секвенсорами и другими компьютерами (не обязательно IВМ- совместимыми), а также выступать в качестве контроллера или приемника MIDI-сообщений, например, воспроизводить музыку с помощью синтезатора звуковой системы по командам от другого MIDI-устройства.
В состав звуковой системы для соединения с MIDI-устройствами обычно входит специальный модуль, организующий MIDI-интерфейс. Наибольшую известность получил модуль MPU-401 (MIDI Processing Unit), созданный фирмой Roland. Этот модуль может работать в двух режимах: Smart Mode (Command mode) и DUMB Mode (UART). UART {Universal Asynchronous Receicer/Transmitter) — Универсальный асинхронный приемопередатчик.
Аналогичные по назначению модули других фирм обычно производятся совместимыми именно с MPU фирмы Roland. Отметим, что для 100%-ной совместимости с MPU-401 модули других фирм должны поддерживать оба режима функционирования. В противном случае в некоторых режимах работы могут возникнуть проблемы, например, при попытке работы в режиме Roland MT-32.
Как правило, непосредственно на самой звуковой карте отсутствуют MIDI-порты, а подключение PC в MIDI-сеть осуществляется с помощью специального MIDI-адаптера (рис. 17.19).
Адаптер имеет все три MIDI-порта, что позволяет соединить PC с любым MIDI-устройством по любой схеме, и дополнительно два разъема для подключения джойстиков (рис. 17.20).
Рис. 17.19. MIDI-адаптер фирмы Gravis
Рис. 17.20. Подключение различных устройств к MIDI-адаптеру
Для подключения MIDI-адаптера к PC используется стандартный разъем Joystick/MIDI. Этот 15-контактный разъем (рис. 17.21) является неотъемлемой частью любой звуковой карты, совместимой с MPU-401. Помимо MIDI-адаптера, к этому разъему можно подключить 1—2 джойстика.
рис. 17.21. Схема подключения джойстика и MIDI-адаптера к разъему Joystick/MIDI на звуковой карте
Несмотря на то, что PC в MIDI-сети может выступать как источником, так и приемником MIDI-сообщений, реальные возможности PC в полной мере проявляются лишь при использовании его в качестве контроллера, управляющего работой внешних MIDI-устройств. В этом случае наиболее полно задействуется концепция каналов MIDI, поскольку PC с помощью секвенсора в состоянии одновременно управлять работой 16 MIDI-устройств, т. е. задействовать все имеющиеся каналы. Следовательно, на базе одного компьютера и 16 MIDI-устройств возможно создание электронного оркестра, что часто используется в студиях звукозаписи.
Интерфейс для подключения дочерних карт
Звуковая система PC может иметь специальный интерфейс для подключения дочерних плат. Путем установки дочерней платы можно увеличивать полифонию звуковой системы и качественно изменить метод синтеза.
Например, если ранее применялся только FM-синтез, то можно добавить WT-синтез. Дочерняя плата устанавливается в специальный 26-контактный разъем Wave Table Connector (рис. 17.22) и обычно содержит WT-синтезатор и микросхему памяти (ROM) с библиотекой инструментов. На Wave Table Connector выведен MIDI-выход, параллельный MIDI-выходу разъема Joystick/MIDI, аналоговый стереовход и цепи питания. Синтезатор дочерней платы получает MIDI-сообщения от звуковой системы PC и генерирует цифровой звуковой сигнал, который поступает на микшер звуковой карты.
Интерфейсы S/PDIF и AES/EBU
Профессиональная звуковая система, как правило, содержит последовательные интерфейсы S/PDIF и/или AES/EBU для обмена звуковыми сигналами в цифровой форме с внешними устройствами.
S/PDIF (Sony/Philips Digital Interface Format) А это интерфейс фирм Sony и Philips для бытовой радиоаппаратуры. S/PDIF представляет собой упрощенный вариант интерфейса для студийной звуковой и радиоаппаратуры AES/EBU (Audio Engineers Society/European Broadcast Union).
Для кодирования звукового сигнала используется цифровой сигнал с частотой от 5 до 10 МГц в зависимости от частоты дискретизации.
Сигнал S/PDIF используется для передачи 16-разрядных стереофонических данных с любой частотой дискретизации (обычно от 32 до 48 кГц) и специальных сигналов. Амплитуда цифрового сигнала составляет 0,5 В. Для передачи применяется коаксиальный кабель с волновым сопротивлением 75 Ом. Внутренний разъем звуковой карты интерфейса S/PDIF имеет следующее назначение контактов: 0 — сигнал (Digital Out), I — корпус (Ground).
Интерфейс AES/EBU обеспечивает передачу монофонического или стереофонического сигнала с переменной частотой дискретизации в соответствии с протоколом интерфейса RS-422.
Интерфейс для подключения приводов CD-ROM
Интерфейс для подключения приводов CD-ROM входит в состав звуковой карты. В недалеком прошлом этот интерфейс на звуковой карте представлял собой простой и чуть ли не единственный способ подключения привода CD-ROM к PC с двумя винчестерами. Тип интерфейса зависит от модели звуковой карты. Возможны следующие типы интерфейса: Panasonic, Sony, Mitsumi, SCSI или IDE. Некоторые модели звуковых карт предусматривают возможность подключения приводов CD-ROM с различными интерфейсами, что отражается в их названии — добавляется аббревиатура MCD (Multi CD).
Модуль микшера звуковой карты производит:
□ Коммутацию (подключение/отключение) источников и приемников звуковых сигналов.
□Регулирование уровня входных и выходных звуковых сигналов.
□ Микширование (смешивание) нескольких звуковых сигналов и регулирование уровня результирующего сигнала.
Источники и приемники звукового сигнала соединяются с модулем микшера через внешние или внутренние разъемы. Внешние разъемы (рис. 17.23) звуковой системы обычно находятся на задней панели корпуса системного блока:
□ Joystick/MIDI — для подключения джойстика или MIDI-адаптера.
□ Mic In — для подключения микрофона.
□ Line In — линейный вход, для подключения любых источников звуковых сигналов.
□ Line Out — линейный выход, для подключения любых приемников звуковых сигналов.
□ Speaker — для подключения головных телефонов (наушников) или пассивной акустической системы.
В канале воспроизведения звуковой системы может находиться выходной усилитель мощности, на вход которого поступает сигнал от микшера. Мощность усилителя обычно не превышает 4 Вт на каждый стереоканал. Выход усилителя мощности подключен к внешнему разъему Speaker. К сожалению, качество усиления оставляет желать лучшего, поэтому для получения выходного сигнала высокого качества акустическую систему (активную) рекомендуется подключать к линейному выходу.
На некоторых недорогих звуковых картах на один и тот же внешний разъем может выводиться либо сигнал линейного выхода, либо сигнал от усилителя, а выбор режима работы выхода (Line Out или Speaker) в этом случае осуществляется джамперами на звуковой карте.
Внешние устройства, подключаемые к звуковой карте, изображены на рис. 17.24..»
Рис. 17.24. Подключение внешних устройств к звуковой карте
Внешние разъемы звуковой системы Line In, Line Out, Mic In, Speaker представляют собой гнезда (розетки) для стандартного штекерного концентрического соединителя {Jack) диаметром 3,5 мм. Штекер может исполняться в двух вариантах: для монофонического (микрофон) или стереофонического (линейный вход и выход) сигнала.
В высококачественных звуковых системах могут использоваться широко распространенные в видеотехнике разъемы типа R.CA. Этот разъем, иногда называемый "колокольчиком", представляет собой концентрический соединитель с диаметром центрального контакта 3,2 мм. Для передачи стереофонического сигнала используются два гнезда RCA.
Внутри системного блока звуковая система может быть оборудована дополнительными разъемами для подключения:
□ Дочерних плат (Wave Table Connector)
□ Цифровых звуковых устройств (S/PDIF)
□ Привода CD-ROM
□ Звукового выхода привода CD-ROM (CD Audio)
С помощью специального кабеля внутренний выход привода CD-ROM можно соединить со звуковой подсистемой PC (рис. 17.25). В этом случае CD-ROM будет выступать в роли источника аналоговых звуковых сигналов и подключен к модулю микшера. Разъем CD Audio конструктивно может быть выполнен в одном из трех вариантов: Panasonic, Mitsumi, Sony. Назначение контактов разъема различается для каждого варианта исполнения, поэтому при подключении кабеля следует проявить максимум внимания.
Рис. 17.26. Микшер Windows 98
Основными характеристиками модуля микшера являются следующие:
□ Количество микшируемых сигналов в канале записи
□ Количество микшируемых сигналов в канале воспроизведения
□ Возможность регулирования уровня сигнала в каждом микшируемом канале
□ Возможность регулирования уровня суммарного сигнала
□ Выходная мощность усилителя
□ Наличие разъемов для подключения внешних и внутренних источников/приемников звуковых сигналов
Управление микшером осуществляется программно средствами Windows (рис. 17.26) или с помощью программы-микшера, входящей в комплект программного обеспечения звуковой карты.
Совместимость звуковой системы
Одним из показателей пригодности к работе звуковой системы является ее совместимость с наиболее популярными моделями звуковых карт, ставшими своего рода стандартами для производителей аппаратных и программных средств для PC. Совместимость с одним из стандартов означает, что звуковая система обеспечит корректность функционирования программ, адаптированных к этому стандарту. Другими словами, во время игры или просмотра мультимедиа-энциклопедии будет слышна, например, музыка, а не хрипы. Особенно актуальны вопросы совместимости для DOS-приложений. Обычно любое DOS-приложение, содержит перечень поддерживаемых стандартов, т. е. перечень звуковых карт, на работу с которыми оно ориентировано.
Стандарт Sound Blaster
Стандарт Sound Blaster появился благодаря огромному количеству приложений (точнее, игр) для DOS, в которых звуковое сопровождение запрограммировано с учетом особенностей звуковых карт семейства Sound Blaster компании Creative Labs. Игры для DOS используют на аппаратном уровне четыре устройства (модуля) звуковой карты:
□ Sound Blaster-совместимые регистры, через которые осуществляется обмен данными.
□ FM-синтезатор.
□ MIDI UART, совместимый с MPU-401. О Игровой порт.
Звуковая карта соответствует стандарту Sound Blaster, т. е. на карте имеются все необходимые устройства.
Стандарт Microsoft Windows Sound System
Другим стандартом для звуковой системы стало изделие Windows Sound System (WSS) фирмы Microsoft. WSS является комплексным решением, поскольку включает звуковую карту и пакет программ, ориентированный преимущественно на бизнес-приложения. В этой связи совместимость какой-либо звуковой карты с Windows Sound System понимается двояко:
□ Программная совместимость — возможность работы под управлением собственных драйверов в 16-разрядном режиме с частотой до 48 кГц.
□ Аппаратная совместимость — возможность настройки на стандартные для WSS параметры (адрес порта ввода/вывода 530, IRQ 10 и т. п.).
Дополнительно для звуковой карты может указываться совместимость с MIDI, MPU-401, МТ-32 и т. п.
Совместимость звуковой системы с перечисленными стандартами в большинстве случаев гарантирует корректность звукового сопровождения приложений.
Акустическая система
Акустическая система (АС) является последним звеном звуковоспроизводящего тракта, непосредственно преобразующим звуковой электрический сигнал в акустические колебания и, тем самым, в значительной степени влияет на качество звука.
В состав АС, как правило, входят несколько звуковых колонок. Каждая колонка, в свою очередь, может иметь один или несколько динамиков (рис. 18.1). Количество колонок в АС, в первую очередь, зависит от числа компонентов, составляющих звуковой сигнал и образующих отдельные звуковые каналы.
Например, стереофонический сигнал содержит два компонента — сигналы левого и правого стереоканалов. Следовательно, стереофоническая АС должна включать не менее двух колонок.
Рис. 18.1. Звуковая колонка с двумя динамиками
Звуковой сигнал в формате Dolby Digital содержит информацию для 6 звуковых каналов: два фронтальных стереоканала, центральный канал (канал диалогов), два тыловых канала и канат сверхнизких частот. Следовательно, для воспроизведения сигнала Dolby Digital акустическая система должна иметь 6 звуковых колонок.
Хотя принцип действия и внутреннее Устройство звуковых колонок бытового назначения и для PC практически не различаются, существуют некоторые особенности функционирования и дизайна.
В большинстве своем АС для PC состоит из двух звуковых колонок. Изначально две колонки обеспечивали воспроизведение стереофонического сигнала. Новые технологии пространственного позиционирования источника звука, учитывающие особенности восприятия звука человеком, позволяют с помощью тех же двух колонок воспроизводить объемное звуковое поле. Для этого необходима соответствующая звуковая система.
Как правило, каждая колонка в АС для PC имеет один единственный громкоговоритель. Однако это не мешает АС, особенно современных моделей, воспроизводить звук практически во всем слышимом частотном диапазоне. Воспроизведение низких частот при этом достигается, например, путем применения специальной конструкции корпуса колонок или самих громкоговорителей (технология Bass Reflex).
Для воспроизведения низких и сверхнизких частот с высоким качеством в АС часто используется третий звуковой агрегат — сабвуфер (subwoofer). Размер сабвуфера приблизительно соответствует размеру коробки из-под обуви. Устанавливается он обычно под столом. Таким образом, трехкомпонентная АС для PC включает две так называемые сателлитные колонки, воспроизводящие средние и высокие частоты (примерно от 150 Гц до 20 кГц) и сабвуфер, воспроизводящий частоты ниже 150 Гц (рис. 18.2).
Рис. 18.2. Трехкомпонентная акустическая система для PC
Часто АС устанавливается в корпус монитора или системного блока PC. Поскольку звуковые колонки располагаются рядом с монитором (точнее, с его электронно-лучевой трубкой), требуется принимать специальные меры предосторожности, чтобы исключить взаимное влияние их магнитных полей. Поэтому практически все современные звуковые колонки для PC имеют специальное магнитное экранирование.
Примечание
За исключением случаев, когда производитель АС неизвестен, а сама АС стоит очень дешево.
Акустические системы бытового назначения всегда подключаются к внешнему усилителю мощности, выполненному в виде отдельного агрегата либо в едином блоке с другими устройствами, например тюнером или эквалайзером. Отличительной особенностью АС для PC является то, что она может иметь собственный встроенный усилитель мощности. АС со встроенным усилителем называется активной, в отличие от пассивной АС, которая усилителя не имеет.
Главное преимущество активной АС — ее можно подключить к линейному выходу звуковой карты. Питание активной АС осуществляется либо от батареек (аккумуляторов), либо от электрической сети с помощью специального адаптера, выполненного в виде отдельного внешнего блока или модуля питания, устанавливаемого в корпус одной из колонок.
При выключенном питании активная акустическая система, возможно, будет работать как пассивная АС, подключать которую следует только к выходу усилителя мощности звуковой карты.
Выходная мощность акустических систем для PC может изменяться в достаточно широком диапазоне. Она зависит от технических характеристик усилителя и динамиков. Мощность АС, в первую очередь, должна соответствовать задачам, которые предстоит решать с ее помощью. Если система предназначена только для индивидуального прослушивания, например, озвучивания компьютерных игр, мощности 10 Вт будет вполне достаточно, чтобы наполнить звуками помещение средних размеров. Если же стоит задача обеспечения хорошей слышимости во время лекции или презентации для большой аудитории, стоит подумать о более мощной системе. Некоторые АС для PC имеют мощность до 30 Вт на канал. С увеличением мощности АС увеличиваются ее габаритные размеры и повышается стоимость.
Заметим, что мощность пассивной акустической' системы согласуется с выходной мощностью усилителя звуковой карты и в большинстве случаев не превышает 1,5—2 Вт на канал.
Кнопка включения питания (Power), регулятор уровня громкости (Volume), регуляторы низких (Bass) и высоких (Tremble) частот, а также регулятор изменения баланса активных АС, как правило, располагаются на одной из колонок или сабвуфере. Рядом с кнопкой включения питания может устанавливаться индикатор питания.
Дополнительно АС может иметь гнездо для подключения внешнего источника питания. Многие современные модели акустических систем также имеют гнездо для подключения головных телефонов. При подключении головных телефонов воспроизведение звука через колонки автоматически прекращается.
На некоторых дорогих моделях акустических систем предусмотрена возможность одновременного подключения к АС нескольких источников звука, например, звуковой карты и стереомагнитофона. Специальный переключатель позволяет прослушивать каждый источник отдельно или смешивать (микшировать) сигналы от разных источников.
Любая АС характеризуется рядом параметров, которые указываются в паспорте. Рассмотрим некоторые из них.
Полоса воспроизводимых частот (Frequency response) — это амплитудно-частотная зависимость звукового давления, или зависимость звукового давления (или силы звука) от частоты переменного напряжения, подводимого к катушке динамика.
Идеальным можно считать динамик, частотная характеристика которого в диапазоне слышимых частот от 20 Гц до 20 кГц представляла бы собой прямую линию. Это свидетельствовало бы о том, что динамик одинаково хорошо преобразует электрический сигнал в звуковой во всем указанном диапазоне. Реальная частотная характеристика (рис. 18.3) отличается от идеальной.
Рис. 18.3. АЧХ звукового давления
АЧХ динамика может содержать "пики" и "провалы" (неравномерности) звукового давления на различных частотах в диапазоне воспроизводимых частот, а границы диапазона определяются предельным значением отклонения (спада) АЧХ, который может составлять от 1 до 3 дБ.
Примечание
Если в паспорте АС указан только диапазон частот звукового давления, при покупке обязательно уточните значение неравномерности частотной характеристики.
Чувствительность звуковой колонки (Sensitivity) характеризуется звуковым давлением, которое она создаст на расстоянии 1 м при подаче на ее вход электрического сигнала мощностью 1 Вт. В соответствии с требованиями стандартов, чувствительность определяется как среднее звуковое давление в определенной полосе частот.
Чем выше значение этой характеристики, тем лучше АС передает динамический диапазон музыкальной программы. Разница между самыми "тихими" и самыми "громкими" звуками современных фонограмм достигает 90—95 дБ и более, а пиковые значения звукового давления могут достигать ПО дБ и более. АС, имеющие высокую чувствительность, достаточно хорошо воспроизводят как тихие, так и громкие звуки.
Из рекламных соображений некоторые фирмы-производители указывают для своих систем довольно высокие значения чувствительности, которые могут быть получены за счет отступления от принятых методик измерения. Так, если измерить среднее звуковое давление не в широкой полосе частот, а в узкой, где амплитудно-частотная характеристика системы имеет пик высотой, например, 2—3 дБ, то значение чувствительности АС будет завышенным.
Примечание
При рассмотрении характеристик АС следует помнить, что существует жесткая связь между чувствительностью АС, ее полезным объемом и нижней граничной частотой. Чем выше чувствительность при прочих равных условиях, тем выше нижняя граничная частота.
Нелинейные искажения, т. е. появление в выходном сигнале новых спектральных составляющих, безусловно, являются очень важным показателем качества любого звена тракта звуковоспроизведения.
Акустические системы выполняют сложное электроакустическое преобразование и объективно являются одним из основных источников нелинейных искажений звуковоспроизводящего тракта. Чаще всего нелинейные искажения измеряют путем подсчета количества гармонических составляющих на выходе системы при подаче на ее вход синусоидального сигнала.
Нелинейные искажения оцениваются коэффициентом гармоник (Total Harmonic Distortion, THD), который нормируется в нескольких диапазонах частот. Например, для высококачественных АС класса Hi-Fi этот коэффициент не должен превышать:
□ 1,5% в диапазоне частот 250—1000 Гц
□ 1,5% в диапазоне частот 1000—2000 Гц П
□ 1,0% в диапазоне частот 2000—6300 Гц
Несмотря на то, что требования стандарта распространяются на сравнительно небольшой диапазон частот, разработчики и производители стремятся свести к минимуму гармонические искажения на самых низких и высоких частотах.
Электрическая мощность (Power handling), которую выдерживает АС, является одной из основных характеристик (по мнению пользователей). Однако не следует считать, что чем больше мощность АС, тем чище и громче будет звук. Получаемое максимальное звуковое давление больше зависит от чувствительности, а мощность АС важна, скорее, с точки зрения ее надежности.
Рекомендациями МЭК и отечественными стандартами введено несколько понятий различных электрических мощностей для АС и определены методы их измерения. Различают следующие виды максимальной мощности:
□ Шумовую (Power handling capacity)
□ Синусоидальную (Rated maximum sinusoidal power)
□ Долговременную (Long-term maximum input power)
□ Кратковременную (Short term maximum input power)
Часто на упаковке АС для PC можно увидеть, например, следующую надпись: "60 W РМРО". Это мощность акустической системы. Но она не совсем точно отражает реальную мощность системы, поскольку производители такой АС вместо номинальной мощности привели значение пиковой мощности (Peak Music Power Output, PMPO).
Измерения пиковой мощности, определяемой немецким стандартом DIN 45500, производится следующим способом. На АС подается кратковременный (длительностью менее 2 с) сигнал частотой не более 250 Гц. Считается, что акустическая система выдержала испытания, если отсутствуют заметные на слух искажений. Понятно, что при измерении мощности таким методом можно получить очень высокие значения, нередко в 10 раз превышающие номинальные. Поэтому на данную характеристику не следует обращать внимания.
Вследствие существенного различия физических процессов, происходящих при испытаниях, значения различных электрических мощностей могут отличаться друг от друга в несколько раз. Так, например, для одной и той же АС паспортная мощность может оказаться в 4—5 раз ниже кратковременной, а синусоидальная — и того меньше. Таким образом, для корректного сравнения мощности различных АС необходимо знать, какие виды указывает производитель на своей продукции и какими методами испытаний они получены. Лишь некоторые фирмы-производители, как правило, известные, заботящиеся о своей репутации на рынке, указывают несколько значений мощности в паспорте АС.
Примечание
На практике чаще всего в паспортах АС указана некая абстрактная мощность (100, 200 Вт и более) без каких-либо ссылок на методику измерения. Поэтому, приобретая АС, будьте осторожны, поскольку может оказаться, что указанная мощность — не совсем то, о чем вы думаете.
Электрическое сопротивление {Impedance) акустической системы обычно составляет 4, 8 или 16 Ом. При этом стандартами допускается снижение реального «полного электрического сопротивления (активного и реактивного) от номинального значения не более чем на 20% в диапазоне частот 20-20000 Гц.
Прежде чем подключать АС к звуковой карте, узнайте паспортное значение выходного сопротивления ее усилителя мощности. Обычно оно составляет 4 Ом.
Внимание!
Подключать АС, электрическое сопротивление которой меньше выходного сопротивления усилителя мощности, категорически запрещено — усилитель можно вывести из строя. Обратное возможно. При этом немного понизится мощность выходного сигнала.