Слово «мультимедиа» прочно вошло в наш лексикон, и без него уже трудно представить современный компьютерный мир. Как и всякое удачное понятие, оно многообразно. Пожалуй, наиболее точная формулировка принадлежит одному из пионеров мультимедиа в нашей стране Сергею Новосельцеву: «Мультимедиа (англ. multimedia от лат. multum - много и media, medium - средоточие, средства) - это комплекс аппаратных и программных средств, позволяющих пользователю работать в диалоговом режиме с разнородными данными (графикой, текстом, звуком, видео), организованными в виде единой информационной среды».
Как видим, мультимедиа объединяет четыре типа разнородных данных (графику, текст, звук и видео) в единое целое. Это четыре элемента, четыре информационные стихии.
В мифологии и философии многих народов принято считать, что все явления мира возникают из сочетания четырех элементов - четырех стихий. Кроме того, в некоторых из них вводится пятая стихия. Например, в китайской философии четырьмя стихиями являются: вода и огонь, земля и воздух. Пятой же стихией (пятым элементом) является сама жизнь, которая является универсальным началом четырех стихий. Вода и огонь - изменчивые, динамические стихии. Земля же и воздух являются стихиями статическими, хранящими мироустройство, они неизменны и незыблемы, как непоколебимо все, что они создают.
Если попытаться распространить четыре стихии на типы существующей информации, то мы увидим, что каждый из них неплохо соотносится с той или иной из четырех стихий:
■ земля - текст;
■ вода - изображения, трехмерные модели и анимационные фильмы, полученные из них;
■ огонь - движущееся изображение (видеофрагменты, оцифрованные кинофильмы, телевидение);
■ воздух — звук, речь, музыка.
Вы, наверное, уже догадались, о чем мы хотели сказать, упоминая пятый элемент. Это то, что позволяет собрать вместе все четыре составляющих, придать им новое качество. Конечно, это и есть мультимедиа. И это понятие само по себе имеет три лица.
Во-первых, мультимедиа - как идея, т.е. новый подход к хранению информации различного типа в единой цифровой форме. Во-вторых, мультимедиа — как оборудование для обработки и хранения информации, без него мультимедиа-идею реализовать невозможно. В-третьих, это программное обеспечение, позволяющее объединить четыре элемента информации в законченное мультимедиа-приложение .
Предлагаемая читатели монография посвящена двум из перечисленных информационных стихий - звуку и видео.
ЧАСТЬ 1. РАБОТА СО ЗВУКОМ
ГЛАВА 1. ОСНОВНЫЕ СВОЙСТВА СЛУХА [1-9]
Изучением слуха и восприятия звука занимается наука под названием психоакустика. В этой науке на основе субъективных наблюдений устанавливаются закономерности и взаимосвязи между объективными характеристиками звука и ощущениями его восприятия. Эти взаимосвязи лишь иногда описываются с помощью эмпирических формул, чаще представляются в виде графиков, а иногда они носят лишь описательный характер, например, для тембра звука. Изучение психоакустики радиоинженерами, и особенно специалистами в области звукотехники, в настоящее время необходимо потому, что результаты исследований в этой области используются в целом ряде разделов звукотехники.
В области аналоговой звукотехники результаты, полученные в психоакустике, позволяют разрабатывать регуляторы уровня и тембра, акустические головки и акустические системы, шумоподавители, эквалайзеры и усилители мощности с учетом слухового восприятия. Без знаний в области психоакустики нельзя понять, почему мы не слышим 20-процентные нелинейные искажения громкоговорителей на низких частотах и почему нас крайне раздражают нелинейные искажения менее 0,1%, возникающие в транзисторных усилителях.
Эти же знания необходимы при комплектовании звуковых студий и согласования между собой различной аудиоаппаратуры. Даже для того, чтобы правильно измерить шум магнитофона, усилителя или целого звукового тракта, требуются знания особенностей слуха человека и специальная аппаратура.
В цифровой звукотехнике до сих пор существует необходимость понижения шума квантования, возникающего при аналого-цифровом преобразовании. Этот шум действует на слух значительно более раздражающе, чем шум аналоговой аудиоаппаратуры. Хотя максимальное отношение сигнал-шум для цифровой аудиоаппаратуры достигает 96... 120 дБ, при воспроизведении записи реальных музыкальных программ оно не превышает 50...70 дБ. Существенное снижение шума квантования при разработке цифровой аудиоаппаратуры также возможно только с учетом особенностей слуха человека.
В системах связи и радиовещания крайне ограничены возможности выбора свободных частотных диапазонов, поэтому остро стоит задача понижения скорости цифровых звуковых потоков без снижения субъективного качества звучания.
В области цифровой звукозаписи для повышения качества воспроизведения звука требуется повышение частоты дискретизации и числа разрядов без увеличения размеров носителя и сокращения времени записи. Для этого требуется осуществить значительное сжатие звука с уменьшением скорости цифрового потока в 4...10 раз. Поэтому в этих областях техники стали использовать субполосное кодирование, при котором звуковой звук разделяется на множество субполос шириной близкой к критической полосе слуха, а кодирование осуществляется в каждой полосе отдельно с выбором числа разрядов так, чтобы шумы квантования не ощущались на слух. Было разработано множество систем
сжатия цифровых аудиоданных, основанных на различных моделях слухового восприятия, таких как MASCAM, MUSICAM, ATRAC, ASPEC и других.
В настоящее время такое кодирование звука используется в европейских цифровых системах радиовещания DAB, DRM, американской Dolby АС-3, оптических дисках системы DVD-Audio, магнитооптических мини-дисках, звуковых дисках системы МР-3, в сети Internet для передачи высококачественного
звука.
Стереофонические звуковые системы строятся на основе знаний бинауральных особенностей слуха человека. Такая способность слуха позволяет воспринимать объемное звучание с локализацией источников звука в пространстве.
1.1. Устройство слухового органа человека
Свойствами слухового восприятия человека в основном определяются требования к широкому классу электроакустических аппаратов: телефонам, микрофонам, громкоговорителям, к аппаратуре записи и воспроизведения звука. Естественно, что и аппаратура трактов звукоусиления, радиовещания и звукового сопровождения телевизионных программ также проектируется на основе изучения свойств слуха человека. Исследования этих свойств, наряду с исследованием анатомического строения слухового органа, имеют значительную историю (более 100 лет) и в совокупности с исследованиями свойств других органов чувств человека (в первую очередь зрения) составляют предмет науки, часто называемой «экспериментальная психология» или «психофизиология восприятия» (слухового, зрительного и т. п.).
По существу, цель этих исследований — получить количественное выражение реакций человека на звуковые, световые и другие раздражители. Только на основе количественных характеристик слуха можно сформулировать такие технические требования, как диапазон частот громкоговорителей, необходимый для передачи музыки и речи, диапазон интенсивности звука, который соответствовал бы звучанию естественных источников (голоса, музыкальных инструментов), допустимые уровни интенсивности мешающих звуков при прослушивании концертных программ и речевых сообщений.
Знание свойств слуха необходимо и для понимания того, какие составляющие звуков речи являются информативными, какие искажения сигнала, передаваемого электроакустическими трактами, заметны на слух и как это связывается с разборчивостью или с художественностью передачи. Наконец, слуховой аппарат человека в целом с его механизмом передачи акустических колебаний к нервным окончаниям слухового нерва, функциональной схемой слухового нерва и слуховых центров мозга представляет собой очень совершенную, биологическую распознающую систему. Элементы этой системы могут оказаться полезным прототипом при создании искусственных акустических и электронно-акустических распознающих систем.
Слуховой аппарат является своеобразным приемником информации и состоит из периферической части и высших отделов слуховой системы. Наиболее изучены процессы преобразования звуковых сигналов в периферической части слухового аппарата. Строение периферической слуховой системы показано на рис. 1.1, а её схематичное представление на рис. 1.2.
Обычно периферическую слуховую систему делят на три части: внешнее, среднее и внутреннее ухо.
Внешнее ухо состоит из ушной раковины и слухового канала, заканчивающегося тонкой мембраной, называемой барабанной перепонкой.
Рис. 1.1. Строение периферической слуховой системы
Внешние уши и голова это компоненты внешней акустической антенны, которая соединяет (согласовывает) барабанную перепонку с внешним звуковым полем. Основные функции внешних ушей - бинауральное (пространственное) восприятие, локализация звукового источника и усиление звуковой энергии, особенно в области средних и высоких частот. Слуховой канал представляет собой изогнутую цилиндрическую трубку длиной 22,5 мм, которая имеет первую резонансную частоту порядка 2,6 кГц, поэтому в этой области частот он существенно усиливает звуковой сигнал, и именно здесь находится область максимальной чувствительности слуха. Считается, что за счет резонансных свойств слухового канала происходит усиление звука на 5... 10 дБ в диапазоне от 2000 до 5000 Гц. Барабанная перепонка - тонкая плёнка толщиной 74 мкм, имеет вид конуса, обращенного остриём в сторону среднего уха. На низких частотах она движется как поршень, на более высоких - на ней образуется сложная система узловых линий, что также имеет значение для усиления звука.
Среднее ухо выполняет следующие функции: согласование сопротивление воздушной среды среднего уха с жидкостной средой улитки внутреннего уха; защита от громких звуков и усиление.
Рис.1.2. Схематичное представление слухового аппарата человека
1 - ушная раковина; 2 — слуховой канал; 3 — барабанная перепонка; 4 — молоточек; 5 - наковальня; 6 — стремя; 7 — мышцы; 8 - евстахиева труба; 9 — круглое окно; 10 - овальное окно; 11 - перегородка улитки; 12 - основная (базилярная) мембрана; 13 - кортиев орган; 14 - геликотрема.
В среднем ухе находятся три маленькие слуховые косточки: молоточек, наковальня и стремя. Молоточек 4 (рис. 1.2) прикреплён к барабанной перепонке 3 одним концом, вторым он соприкасается с наковальней 5, которая соединена со стременем 6. Основание стремени соединено овальным окном 10 с внутренним ухом.
Для выравнивания атмосферного давления среднее ухо соединено с носоглоткой евстахиевой трубой. При изменении атмосферного давления воздух может входить или выходить из среднего уха, поэтому барабанная перепонка не реагирует на медленные изменения статического давления - спуск-подъём и т.п. Обычно евстахиева труба закрыта. Она открывается лишь при внезапном изменении давления. Если у человека евстахиева труба блокирована, например,
в результате простуды, то выравнивания давлений не происходит, и человек ощущает боль в ушах.
Барабанная перепонка и косточки среднего уха действуют наподобие трансформатора (коэффициент трансформации равен примерно 50. ..60), превращая воздушные колебания с большой амплитудой и сравнительно малым давлением в колебания жидкости внутреннего уха с большим давлением и малой амплитудой. Трансформация происходит, во-первых, вследствие того, что площадь овального окна в 20 раз меньше площади барабанной перепонки, и, во-вторых, вследствие рычажной системы передачи косточек, которые увеличивают силу, передаваемую в полость внутреннего уха, ещё в несколько раз. Напомним, что при равной энергии звук в воздухе имеет в 58 раз большую амплитуду частиц, чем в воде; давление воздушной волны, наоборот, в 58 раз меньшую.
Для защиты слухового аппарата от повреждений существуют специальные мышцы 7. При сильном шуме под действием этих мышц ось вращения стремени смещается, уменьшая силу давления на овальное окно. При дальнейшем возрастании шума вступают в дело другие мышцы, одна из которых туго натягивает барабанную перепонку, а другая частично смещает стремя.
Внутреннее ухо находится в височной кости, и включает в себя вестибулярный аппарат (на рис. 1.2 и 1.3 не показан) и улитку.
Улитка играет основную роль в слуховом восприятии. Она представляет собой трубку переменного сечения, свёрнутую в 2,5 раза подобно улитке (на рис. 1.2 она изображена в виде усечённого конуса). В развёрнутом состоянии она имеет длину 3,5 см. Внутри улитка имеет чрезвычайно сложную структуру. Её полость разделена на верхнюю и нижнюю части перегородкой 11, представляющей собой тонкую костяную пластинку. Перегородка оканчивается непосредственно у верхушки улитки, где верхняя и нижняя части её полости связаны отверстием - геликотремой 14. Перегородка примыкает только к одной стенке улитки. Вдоль внешней стенки на всём её протяжении остаётся щель, перекрытая подвижной основной (базилярной) мембраной 12. Базилярная мембрана состоит из нескольких тысяч поперечных волокон: длина 32 мм, ширина у стремени - 0,05 мм (этот конец узкий, легкий и жесткий), у геликотремы -ширина 0,5 мм (этот конец толще и мягче). На мембране вдоль всей её длины от овального окна до геликотремы располагается своего рода валик - кортиев орган 13.
Орган Корти содержит специализированные слуховые рецепторы — «волосковые» клетки. Каждая из таких клеток имеет до ста волосковых окончаний. С наружной стороны мембраны располагается три-пять слоев таких клеток, а под ними находится внутренний ряд, так что общее число волосковых клеток, взаимодействующих между сббой послойно при деформациях мембраны, составляет около 25 тысяч.
От свободной кромки перегородки улитки вверх под углом натянута очень тонкая мембрана Рейснера 1 (рис. 1.3), ниже которой расположена покровная (текториальная) мембрана 2. Мембрана Рейснера отгораживает жидкую среду вестибулярного аппарата от слухового.
На рис. 1.3 показан поперечный разрез внутреннего уха. Между левой стенкой и кромкой перегородки улитки видна основная мембрана с кортиевым опганом.
Заметим, что кроме овальной мембраны в улитке имеется мембрана круглого окна 9. Большинство авторов при описании роли мембраны круглого окна ограничиваются туманной фразой, что эта мембрана «выполняет вспомогательную функцию согласования среднего и внутреннего уха». Полагаю, что если бы не было этой мембраны, то не было бы и движения жидкости в улитке, так как лимфа практически не сжимаема. При воздействии звукового давления мембрана круглого окна перемещается в сторону, противоположную движению мембраны овального окна, тем самым, давая возможность лимфе перемещаться, и воздействовать на волосковые клетки.
Общий механизм передачи звука упрощенно может быть представлен следующим образом: звуковые волны проходят слуховой канал и возбуждают колебания барабанной перепонки. Эти колебания через систему косточек среднего уха передаются овальному окну, которое толкает жидкость в верхнем отделе улитки. Возникает импульс давления, который заставляет жидкость переливаться из верхней половины в нижнюю. Жидкость при этом оказывает давление на мембрану круглого окна, вызывая при этом ее смещение в сторону, противоположную движению стремени. Движение жидкости вызывает колебания основной мембраны в виде бегущей волны (рис. 1.4).
Преобразование механических колебаний мембраны в дискретные электрические импульсы нервных волокон происходят в органе Корти. Когда основная мембрана вибрирует, реснички на волосковых клетках изгибаются и контактируют с покровной мембраной.
Результатом этого сложного процесса является преобразование входного сигнала в электрическую форму, и после этого с помощью слуховых нервов выполняется его передача к слуховым областям мозга, где и формируется окончательная реакция на звуковое воздействие.
Как было описано ранее, при воздействии звуковых колебаниях стремя приводит в движение мембрану овального окна, которая вызывает движение лимфы. Лимфа колеблется касательно к поверхности основной мембраны, поперек её волокон. На колебания лимфы отзываются (резонируют) в зависимости от частоты колебаний только вполне определенные волокна. Около геликотремы расположены наиболее длинные волокна, резонирующие на низких частотах, а в основании улитки расположены наиболее короткие волокна, которые резонируют на высоких частотах. Сложный звук, состоящий из нескольких составляющих, возбуждает несколько групп волокон (в соответствии с частотами составляющих). Таким образом, основная мембрана служит частотным анализатором. Резонансная частота каждого из волокон определяется не только параметрами волокна как натянутой струны, но и массой лимфы, соколеблющейся с волокном. Эта масса определяется расстоянием резонирующего волокна от овального окна. Поэтому на низких частотах в колебаниях участвует большая масса лимфы, а на высоких — меньшая. На рис. 1.5 приведена эквивалентная электрическая модель слухового анализатора.
Как видно из рис. 1.5, эквивалентная схема улитки представляет собой полосовой фильтр, при этом границы воспринимаемого слухом частотного диапазона довольно широки (16., .20000 Гц).
Представляет значительный интерес частотная избирательность слухового анализатора, так как от этого параметра зависят требования к электроакустической аппаратуре. Для количественной оценки избирательных свойств слуха удобно воспользоваться понятием высоты звука. Возможность определения высоты звука является важнейшим свойством слуховой системы. Это свойство имеет огромное значение для идентификации и классификации звуков в окружающем звуковом пространстве, эта же способность слуховой системы лежит в основе восприятия интонационного аспекта музыки, т.е. мелодии и гармонии.
В соответствии с международным стандартом ANSI-994 «Высота (Pitch)
атрибут слухового ощущения в терминах, в которых звуки можно расположить по шкале от низких к высоким. Высота зависит главным образом от частоты звукового стимула, но она также зависит от звукового давления и от формы волны». Таким образом, высота - это линейная классификация звуковых сигналов, в отличие от громкости, о которой можно только сказать больше или меньше, т.е. это — относительная классификация.
Прежде всего, необходимо отметить, что слуховая система способна различать высоту звука только у периодических сигналов, поэтому определяющим параметром для различения высоты тона является частота сигнала. Если это сложный звук, то высоту слуховая система может присвоить по его основному тону, но только если он имеет периодическую структуру, т.е. его спектр состоит из гармоник (обертонов, частоты которых находятся в целочисленных отношениях). Если это условие не выполняется, то определить высоту тона слуховая система не может. Например, звуки таких инструментов как тарелки, гонги и др. не имеют определенной высоты.
Изучение связи частоты звука и воспринимаемой высоты предпринималось еще Пифагором, а также многими известными физиками: Галилеем, Гельмгольцем, Омом и др. В настоящее время на основе тщательных экспериментов, в процессе которых слушателю предъявлялись два звука разной частоты с просьбой расположить их по высоте, установлена зависимость высоты тона от частоты сигнала, показанная на рис. 1.6.
` Высота тона измеряется в специальных единицах - мелах. Один мел равен ощущаемой высоте звука частотой 1000 Гц при уровне 40 дБ. Как видно из рисунка, эта связь не линейна - при увеличении частоты, например, в три раза (от 1000 до 3000 Гц), высота повышается только в два раза (от 1000 до 2000 мел). Нелинейная зависимость особенно выражена на низких и высоких частотах. В средней части диапазона частот изменение высоты тона в мелах пропорционально логарифму частоты.
Многочисленные исследования были посвящены определению порога различимости по высоте двух разных тонов, отличающихся по частоте. Ухо очень чувствительно к небольшим изменениям частоты и может различать синусоидальные тоны, отличающиеся по частоте всего на 0,2%, на частотах от 500 до 4000 Гц. На более низких, а также на более высоких частотах слух менее чувствителен к изменению частоты. В диапазоне ниже частоты 500 Гц можно выделить примерно 140 градаций высоты тона, в диапазоне от 500 Гц до 16 кГц - примерно 480 градаций высоты тона. Заметим, что в европейской музыке инструменты с равномерно темперированной шкалой используют порядка 100 градаций высоты. Так как возможности слуховой системы гораздо больше 620 градаций высоты, то это является основой для развития современной микротоновой и спектральной музыки, особенно в связи с появлением компьютерных технологий.
На слух расстояния по высоте тона называются интервалами или музыкальными интервалами. Простейшие для слуха интервалы следующие:
■ унисон —1:1 (два звука одинаковой частоты);
■ октава-1:2;
■ квинта-2:3;
■ кварта - 3:4;
■ большая терция - 4:5;
■ малая терция — 5:6 или 6:7;
■ большая секунда (или тон) - 7:8 или 8:9;
■ малая секунда (или полутон)- 15:16.
Музыкальные свойства интервалов составляют основу, на которой строится теория музыки. В технике используются понятия октавы 1:2, полуоктавы 1:, третьоктавы 1:.
Ощущение высоты чистого тона связано не только с частотой, но и с интенсивностью звука и его длительностью. Как показали различные исследования, при повышении интенсивности звука громкие низкие звуки кажутся еще ниже, а высокие звуки с повышением громкости кажутся слегка выше (только для средних частот 1.. .2 кГц влияние интенсивности незаметно). Следует отметить, что эта зависимость весьма незначительна, а для сложных музыкальных звуков почти незаметна. И в этом музыке повезло, так как иначе при переходе от самых слабых к самым громким звукам мелодия и гармония были бы нарушены.
Ощущение высоты тона зависит и от его длительности: короткие звуки воспринимаются как сухой щелчок, но при удлинении звука щелчок начинает
давать ощущение высоты тона. Время, требуемое для перехода от щелчка к тону зависит от частоты: для низких частот для распознания высоты тона длительность импульса должна быть примерно 60 мс; для частот от 1 до 2 кГц - 15 мс Для сложных звуков это время увеличивается, для звуков речи оно может составлять 20...30 мс.
Заметим, что приведенные данные о высокой частотной избирательности слуха получены для случая восприятия чистых тонов. Реально чистые тоны встречаются крайне редко. Поэтому при воздействии сложных звуков человек определяет во всём диапазоне частот не более 250 градаций частоты, причём число этих градаций сокращается с уменьшением интенсивности звука, и в среднем составляет около 150. Таким образом, соседние градации в среднем отличаются друг от друга по частоте не менее чем на 4%. Поэтому фильмы, снятые для кино со скоростью 24 кадров в секунду, можно демонстрировать на телевидении со скоростью 25 кадров в секунду и наоборот. При этом самые лучшие музыканты с абсолютным слухом не замечают разницы в звучании, так как расхождение в частотах колебаний не превосходит 4%. При расхождении на два кадра в секунду эту разницу уже можно обнаружить.
Большая точность слуха по частоте предъявляет довольно жёсткие требования к точности хода лентопротяжных механизмов магнитофонов и к точности скорости и стабильности вращения дисков с записью звука.
1.3. Порог слышимости и болевой порог
Если волокно основной мембраны при своих колебаниях не достает до ближайшей волосковой клетки, то человек не воспринимает звук. При увеличении амплитуды колебаний волокна, как только оно коснется ближайшей клетки, произойдет раздражение нервного окончания, которое сразу же начнет посылать электрические импульсы в слуховой центр мозга; звук будет услышан.
Для того чтобы в полной тишине звук с частотой 1000 Гц был услышан, амплитуда давления вблизи человеческого уха должна достигать всего лишь 2,84∙10 -5 Н/м2 (эффективное значение -2∙10 -5Н/м2), что составляет всего лишь 2∙10 -10 атмосферного давления. Интенсивность соответствующей плоской волны в воздухе при этом составит 10-12 Вт/м2. Интересно заметить, что амплитуда смещения частиц воздуха при этом меньше десятой доли радиуса молекулы. Величина случайных флуктуации силы давления на барабанную перепонку, связанная с тепловым молекулярным движением, всего в 5... 10 раз меньше силы давления звука, заметного в полной тишине.
Величина звукового давления, которая едва заметна на слух при отсутствии всяких других мешающих шумов и звуков, называется пороговой величиной звукового давления, или, сокращенно, порогом слышимости. Определение порога слышимости предпринимались исследователями неоднократно. Было выяснено, что пороги слышимости, определенные у ряда людей, могут сильно различаться. Эти различия имеют случайный характер для группы людей одинакового возраста, имеющих нормальный здоровый слуховой орган. Порог слышимости может изменяться у одного и того же человека в зависимости от состояния организма в данный момент: возбуждения, утомления я т. п. Поэтому надежные сведения о пороге слышимости можно получить только статистическим путем, измерив его в определенных условиях у большого числа людей.
Такие статистические исследования проводились в США (1938-1939 гг.). в Англии (1956-1957 гг..), СССР (1958 г.). На основании международного соглашения в качестве стандарта принята кривая зависимости порога слышимости от частоты для чистого синусоидального звука, приведенная на рис. 1.7. При этом в качестве испытуемых привлекались лица в возрасте от 18 до 23 лет с заведомо здоровыми органами слуха.
Рис. 1.7. Области слышимости звука
Как видно из рис. 1.7, порог слышимости сильно зависит от частоты. Звуки в области частот от 2000 до 4000 Гц замечаются при звуковом давлении даже меньшем 2∙10-5 Па. В то же время на нижних и верхних звуковых частотах порог слышимости существенно возрастает. Как бы мы ни увеличивали интенсивность звука на частотах выше 20000 Гц, ощущение звука не возникает, т.е. звуки с частотой выше 20000 Гц лежат за пределами частот слышимых звуков большинства людей. Точно так же дело обстоит со звуками с частотой ниже 16.. .20 Гц. Частоты ниже 16 Гц называются инфразвуковыми, а выше 20000 Гц - ультразвуковыми.
Если амплитуду давления слышимой частоты постепенно увеличивать, то на слух будет казаться, что громкость звука увеличивается. При некотором достаточно большом звуковом давлении наступает ощущение боли в ушах. Звуковое давление, при котором наступает болевое ощущение, называется порогом болевого ощущения. Кривая частотной зависимости порога болевого ощущения более линейна, чем кривая порога слышимости.
Пусть вас не удивляет, что в ряде учебных пособий и справочников даютcя
различные абсолютные значения и частотные зависимости порога слышимости
Эта разница обусловлена различием в методах измерения порога слышимости
Так, измерения могут быть проведены для одноухого или двуухого
слушания. Кроме того, существуют пороги, измеренные по давлению около
ушной раковины (при слушании телефона) или измеренные для фронтального
падения звуковой волны (в свободном звуковом поле) и при многократном отражении от ограждающих поверхностей (при слушании в помещении).
1.4. Дифференциальный порог восприятия интенсивности звука
При увеличении интенсивности звука выше пороговой, пока амплитуда колебаний волокон не увеличится настолько, чтобы коснуться еще одной клетки слуховое ощущение остается постоянным. Как только одно из волокон прикоснется к следующей клетке, слуховое ощущение повысится скачком. По мере увеличения интенсивности звука расширяется зона возбуждения основной мембраны - начинают колебаться и соседние волокна, также возбуждающие нервные клетки одну за другой. Каждая из них будет посылать свои импульсы в слуховой центр. Слуховое ощущение при этом будет нарастать скачками по мере увеличения числа возбужденных клеток. Такие скачки называют порогом различения интенсивности. Число этих скачков на средних частотах не превышает 250, причем на низких и высоких частотах их количество уменьшается и в среднем по частотному диапазону составляет около 150. Таким образом, не только по частоте, но и по амплитуде имеет место дискретное восприятие звука. Учитывая дискретность по частоте и по амплитуде, насчитывают во всей области слухового восприятия около 22000 элементарных градаций, что примерно соответствует числу нервных окончаний.
Минимальная различимая на слух разность интенсивности двух звуков одной и той же частоты определяет так называемый дифференциальный порог слышимости по интенсивности звука.
Однако, сила звука, выраженная в виде звукового давления или потока звуковой энергии, не является мерой величины ощущения или субъективной силы звука, которую принято называть ощущением громкости.
Каким же образом можно оценить громкость как меру субъективной силы звука? Базой для этого может служить психофизический закон, установленный Вебером в 1846 году и заключающийся в том, что отношение минимального воспринимаемого прироста некоторого стимула к первоначальной его величине является постоянным. Обозначая силу звука (звукового стимула) через J, напишем закон Вебера в такой форме:
(1.1)
где ΔJ - прирост интенсивности, который следует дать звуку интенсивности J, чтобы стала заметна разница в громкости между звуками J и J+ΔJ. Величина
составляет примерно 10%. Подчеркнем еще раз, что это соотношение связано со свойствами нервной системы и наблюдается не только при звуковых раздражителях, но и при зрительных, осязательных и др., поэтому оно и носит название всеобщего физиологического закона.
Следующий шаг в развитии теории Вебера был сделан в 1860 году Фехнером, который подверг соотношение (1.1) некоторой математической обработке. Фехнер принял, что прирост ΔJ есть бесконечно малая величина dJ, а правую часть счёл пропорциональной бесконечно малому приросту ощущения dE (в данном
случае-ощущение громкости). Получается соотношение
(1.2)
где d J - (принятая за бесконечно малую) величина прироста интенсивности;
dE - соответственно «бесконечно малый прирост величины нашего ощущения»;
А - некоторая произвольная постоянная, зависящая от выбора единиц ощущения.
После того, как закон Вебера записан в таком математическом виде, он представляет собой простейшее дифференциальное уравнение, которое можно интегрировать. Интегрируя выражение (1.2), получим:
(1.3
где С - постоянная интегрирования.
Считая, что на пороге слышимости Е =0 и J =Jo, мы определим
(1.4)
и получим известный логарифмический закон, носящий название закона Вебера-Фехнера, согласно которому ощущение (Е) пропорционально логарифму раздражения
(1.5)
Переходя к десятичным логарифмам, получим
(1.6)
Константу А можно принять равной некоторой удобной для вычисления величине, так как она определяет масштаб ощущения и поэтому может быть выбрана произвольно. Принимая, например, условно 2,3 А = 10, получим
(1.7)
Эта формула даёт величину, которую называют уровнем ощущения. Применение шкалы децибел удобно для оценки величины слухового ощущения ещё и потому, что минимально ощутимые приросты имеют величину порядка 0,5 дБ
Вследствие логарифмического закона восприятия и широкого диапазона интенсивностей слышимых звуков для объективной оценки введено понятие уровня интенсивности
(1.8)
За нулевой уровень условились принимать интенсивность I0, близкую к пороговой интенсивности для нормального слуха на частоте 1000 Гц. Эта интенсивность, как уже отмечалось, приблизительно равна 10 -12 Вт/м2. Следовательно болевой порог интенсивности находится около 120 дБ.
В соответствии с квадратичным соотношением между интенсивностью
l и звуковым давлением уровень звукового давления
р0 — звуковое давление на нулевом уровне, равное 2-10 -5Па.
Взяв р0 = 2∙10 5 Н/м2, что соответствует стандартному порогу слышимо-t уха человека на частоте 1000 Гц, получим:
Определенный по (1.9 или 1.10) уровень носит название уровня звукового давления, выраженного в децибелах. Численно такое же значение будет, и уровень интенсивности звука, определенный по формуле: = 10 lg I + 120, дБ , где за Iо принята величина пороговой интенсивности 10 -12 Вт/м2.
Уровень звукового давления совпадает по величине с уровнем ощущения для чистого тона 1000 Гц, так как при этом значение Iо совпадает с порогом слышимости на 1000 Гц.
Понятие уровня используется не только в акустике, но и электротехнике и связи.
. Так, под электрическим уровнем понимается величина
Нулевые уровни электрических величин выбираются при этом так, чтобы мощность, выделяемая при напряжении U0 на сопротивлении R = 600 Ом, составляла 1мВт. Отсюда легко найти, что U0= 0,775 В.
В телефонии и технике дальней связи многие годы использовалась другая логарифмическая шкала — шкала неперов. Один непер соответствует отношения напряжений, равному 2,718, т. е. основанию натуральных логарифмов.
Таким образом, еслиИз определения непера
Следует, что
При восприятии звука слуховой аппарат человека разделяет его на частотные группы, называемые критическими полосами. Эта особенность слуха является одним из важнейших его свойств. Понятия частотная группа и критическая полоса слуха тождественны. В диапазоне от 20 до 16000 Гц число критических полос равно 24. Ширина этих полос меняется от низких к высоким частотам нерегулярным образом: 80, 100, 100, 100, ПО, 120,140,150, 160... Гц, на 20 кГц ширина полосы увеличивается до 5 кГц. Стандартами MPEG установлены нижние границы критических полос слуха: 20, 100, 200, 300, 400, 510, 630, 770, 920, 1080, 1270, 1480, 1720, 2000, 2320, 2700, 3150, 3700, 4440, 5300, 5400,7700,9500,12000,16000 Гц.
Критические полосы слуха не зависят от уровня интенсивности шума. В области до 500 Гц ширина частотных групп почти не зависит от средней частоты шума и равна примерно 100 Гц. В области выше 500 Гц она увеличивается пропорционально средней частоте (рис. 1.8). При этом соблюдается не абсолютное, а относительное постоянство ширины полосы AF/F - const
Рис. 1.8. Зависимость ширины критической полосы слуха от ее средней частоты FСР
В пределах частотных групп слух интегрирует возбуждение по частоте и не различает тонкой структуры возбуждения. На этом основании при субполосном кодировании звука в пределах каждой частотной группы достаточно передавать лишь одну максимальную составляющую спектра. По этой же причине слух реагирует не на общую мощность шума, а на мощность шума в критических полосах. Таким образом, при воздействии широкополосного шума слух как бы превращает сплошной спектр в дискретный. Такой спектр состоит из конечного числа составляющих по числу критических полос слухового аппарата.
Если ширина спектра узкополосного шума меньше ширины критической слуха, то уровень громкости в этой полосе определяется лишь общей ей шума и совершенно не зависит от характера распределения интенсивности полосе. Она может быть распределена равномерно или сосредоточена в полосы или быть в виде одного тона.
Критические полосы слуха оказалось удобно использовать в качестве субъективной высоты тона, которую назвали барк. В настоящее время в психоакустических моделях слуха вместо частотных шкал используются шкалы высоты тона звука в барках. Такие же шкалы используются при расчете коэффициентов маскировки. На рис. 1.9 приведен график перевода частот шкалы высоты тона в октавах в шкалу высоты тона в барках. По оси абсцисс отложена высота тона в октавах, а по оси ординат - высота тона z в барках
1.6. Пороги слышимости при маскировке
При одновременном воздействии на слух двух звуков один из них может прослушиваться на фоне другого звука. Этот эффект называется маскировкой. Маскирующее действие различных звуков выявляется путем определения повышения уровня порога слышимости испытательных тонов или узкополосных шумов NПС относительно уровня абсолютного порога слышимости NАПС
Коэффициент маскировки КМ рассчитывается в децибелах как разность этих двух уровней
Маскировка чистым тоном. На рис. 1.10 приведены кривые маскировки тона в диапазоне частот, когда мешающим звуком является тоже тон, но с фиксированной
частотой FM = 1 кГц и разными уровнями звукового давления NM. По этим кривым определяется порог слышимости на конкретных частотах маскируемого тона FТ, и рассчитывается коэффициент маскировки NПС, дБ.
Рис. 1.10. Кривые порога слышимости тона с частотой Ft при маскировке тоном с частотой Fm = 1 кГц и уровнем Nm, дБ
Особенности маскировки чистым тоном. Эти особенности могут быть сформулированы следующим образом:
■ маскировка максимальна, когда частоты FT и FM близки, чем дальше по частоте они расположены друг от друга, тем меньше величина маскировки;
■ величина маскировки увеличивается по мере возрастания уровня мешающего тона NM;
■ кривые маскировки существенно несимметричны по шкале частот, у них более резкий спад в сторону низких частот и плавное понижение в сторону верхних частот, поэтому маскировка сильнее проявляется в области высоких частот;
■ сдвиг маскирующего звука по частоте приводит к изменению формы кривой маскировки.
Если частота тона FT равна удвоенной, утроенной и выше частоте мешающего тона FM, то в широком диапазоне слышимости возникают биения, которые проявляются в виде провалов на графиках кривых маскировки. Эти биения, возникают из-за нелинейности слуха и тем заметнее, чем больше уровень мешающего тона.
Если маскировка осуществляется сразу несколькими тонами (созвучием), то кривая порога слышимости во всем частотном диапазоне созвучия лежит выше абсолютного порога слышимости. В этом случае кривые порога слышимости имеют множество максимумов и зон биений. При малой громкости высокий тон хорошо слышен одновременно с низким тоном. При высокой громкости высокие частоты могут полностью маскироваться низкими.
Маскировка узкополосным шумом. При маскировке тона с частотой FT узкополосным шумом с центральной частотой FM и уровнем интенсивности NM (рис. 1.11) кривые маскировки примерно такие же, как при маскировке тоном с некоторыми отличиями:
■ нет биений и провала коэффициента маскировки на средней частоте мешающего звука,
■ максимум маскировки на 4 дБ ниже максимума уровня интенсивности мешающего шума.
Рис.1.11. Кривые порога слышимости тона с частотой FT при маскировке узкополосным шумом с центральной частотой FM = 1 кГц и уровнем NM, дБ
Для тональных звуков выше 1 кГц маскирующее действие шума значительное, в то время как частоты на октаву ниже частоты FM практически не маскируются. Это очень важно, так как при дискретизации часто возникают искажения ниже спектра основного тона, которые не маскируются. Например, на частоте тона 9 кГц пятая гармоника ошибок квантования образует с частотой дискретизации 44 кГц паразитную составляющую с частотой 1 кГц.
Графики на рис. 1.11 позволяют рассчитать допустимое отношение сигнал-шум квантования с учетом маскировки. Дело в том, что узкополосный шум маскирует не только тоны, но и широкополосные шумы квантования. Для маскирующих звуков большого уровня, например, 100 дБ, частотная область максимальной чувствительности к шумам квантования смещается в область 200.. .400 Гц и при этом порог слышимости при маскировке на 20 дБ выше порога слышимости в тишине.
В этом диапазоне критические полосы слуха в 10 раз меньше таких полос в области 2...5 кГц. Поэтому для шума квантования с равномерной спектральной плотностью допустимое увеличение уровня шума в такой полосе составит Ю дБ. В результате порог слышимости шума увеличивается до 30 дБ. Если
учесть, что пороговый уровень слышимости шума в тишине равен +12 дБ, то допустимое значение уровня шума квантования составит 42 дБ, а допустимое отношение сигнал/шум квантования 58 дБ (100-42). Поэтому величина отношения сигнал/шум равная 60 дБ является нормой при цифровой передаче узкополосных сигналов в широкополосных трактах.
Маскировка шума квантования тональными звуками и узкополосными шумами имеет очень большое значение при кодировании звука, так как передавать составляющие спектра, которые маскируются, не нужно. Это позволяет существенно сократить необходимое число разрядов и, следовательно, избыточность в звуковых сигналах и скорости цифровых потоков.
Смещение частоты маскирующего звука приводит к смещению кривой маскировки по оси частот. В области частот выше 1 кГц кривая маскировки меняется мало. На частотах ниже 1 кГц эта кривая видоизменяется достаточно сильно. Особенно важно, что она расширяется в область НЧ.
Маскировка широкополосным белым шумом. При маскировке тона белым шумом кривые маскировки существенно видоизменяются (рис. 1.12).
Рис. 1.12. Кривые порога слышимости тона с частотой FT при маскировке белым шумом с уровнем спектральной плотности N(RБШ ) М, дБ
Эти особенности могут быть сформулированы следующим образом:
■ вместо уровня интенсивности для характеристики мощности шума используется уровень спектральной плотности мощности N(RБШ);
■ до частоты 500 Гц кривые маскировки идут горизонтально;
■ на частотах выше 500 Гц уровень порога маскировки повышается, это изменение составляет 3 дБ/октаву, и при увеличении частоты в 10 раз порог слышимости возрастает на 10 дБ.
Такая зависимость объясняется тем, что органы слуха реагируют не на общую мощность, а на мощность шума в критических полосах слуха. Ниже 500 Гц все критические полосы слуха имеют одинаковую ширину, поэтому порог
слышимости от частоты не зависит. В области частот, где ширина критических полос слуха пропорциональна средней частоте, при увеличении частоты в 10 раз порог слышимости возрастает на 10 дБ.
При маскировке шумом слух разделяет широкополосный шум на частотные группы и может распознать испытательный тон с частотой FT лишь тогда, когда его уровень на несколько децибел ниже уровня мешающего шума в частотной группе, где находится тон.
При маскировке белым шумом с уровнем спектральной плотности мощности N(RБШ) величина маскировки определяется как разность между величинами порога слышимости тона и абсолютного порога слышимости этого же звука. Например, при. N(RБШ) —40 дБ на частоте 1 кГц порог слышимости тона равен 58 дБ, а абсолютный порог слышимости — 3 дБ, поэтому величина маскировки составляет 55 дБ. На других частотах она будет иной.
Равномерно маскирующий шум. Шум, который осуществляет одинаковую маскировку во всем частотном диапазоне, должен иметь до частоты 500 Гц спектральную плотность мощности как у белого шума RБШ Выше 500 Гц спектральная плотность мощности должна уменьшаться пропорционально частоте, как у розового шума. Такой шум называется равномерно маскирующим. Кривые маскировки таким шумом приведены на рис. 1.13. Расчет коэффициента маскировки производится так же, как и при белом шуме.
Рис. 1.13. Кривые порога слышимости тона с частотой FT при равномерно маскирующем шуме
Маскировка тона шумом внутри критической полосы слуха. При такой маскировке, предполагается, что ширина полосы белого шума равна ширине критической полосы слуха, и маскируемый тон находится посередине этой полосы. В такой ситуации величина маскировки оценивается с помощью коэффициента, показывающего, на сколько децибел порог слышимости маскируемого тона с частотой FT ниже уровня маскирующего шума NМШ в рассматриваемой критической полосе слуха.
Этот коэффициент маскировки тона шумом ΔNМТШ определяется равенством
где NПС -уровень порога слышимости тона при маскировке его шумом с уровнем NМШ
Для белого шума с уровнем спектральной плотности мощности N(RБШ) уровень маскирующего шума NМШ в критической полосе ΔFКР, равен:
До частоты 500 Гц значение коэффициента маскировки ΔNМТШ,. равно минус 2 дБ. С увеличением ширины критических полос слуха (на частотах выше 500 Гц) его величина уменьшается, достигая на самых верхних частотах значения минус S...6 дБ.
Существенно хуже проявляется маскировка для ситуации, когда тон маскирует шум. Его ширина здесь по-прежнему равна критической полосе слуха. В этом случае коэффициент маскировки определяется равенством
где NПСШ и NМТ — соответственно порог слышимости маскируемого тоном шума и уровень маскирующего тона в децибелах, и он изменяется от минус 5..7 дБ на самых низких частотах до значений минус 35...40 дБ для самых верхних.
Графики маскировки при использовании шкалы высоты тона в барках. Кривые порога слышимости при построении кривых маскировки в шкале частот имеют сложную форму, которую трудно аппроксимировать. При переходе от частотной шкалы к шкале высоты тона z в барках эта проблема решается значительно проще. В этой шкале форма кривых маскировки не зависит от величины высоты тона z маскирующего тона и полностью определяется только уровнем его интенсивности. Поэтому в стандартах кодирования MPEG величина маскировки задается именно в шкале высоты тона в барках.
В качестве примера на рис. 1.14 приведены графики для коэффициентов
маскировки тона шумом и шума тоном внутри критической полосы слуха. На графиках по оси ординат откладывается величина коэффициента маскировки внутри критической полосы слуха. По оси абсцисс откладывается высота z в барках. Коэффициент маскировки рассчитывался с помощью аппроксимирующей функции
:
Как видно, с увеличением высоты тона z коэффициент маскировки в обоих случаях уменьшается по линейному закону. Тон остается всегда слышимым, даже, если его уровень меньше уровня маскирующего звука. Маскировка шума тоном (график 2) проявляется значительно слабее.
Рис. 1.14. Зависимости коэффициента маскировки внутри частотной группы от высоты тона в барках (1 - маскировка тона шумом, 2 -маскировка шума тоном)
На рис. 1.15 приведены кривые маскировки вне критической полосы слуха В этом случае рассматривается маскировка составляющими одной полосы составляющих в других критических полосах. Маскирующими могут быть тоны или узкополосный шум. Графики справедливы в обоих случаях. Как видно, форма кривых маскировки не зависит от высоты мешающего тона ZM. Под коэффициентом маскировки при этом понимается уровень порога слышимости тона NПС при заданных значениях ZM и NM.
Рис. 1.15. Зависимости порога слышимости тона с частотой Ft при маскировке тоном или узкополосным шумом от высоты тона в барках
1.7. Уровень громкости и громкость
Звуковое давление и интенсивность тонального звука, измеренные приборами, не дают представления об ощущении громкости. Между тем человек может довольно точно установить равенство громкостей двух звуков любого частотного состава. Это свойство слуха было использовано для введения понятия уровня громкости, позволяющего определить громкость одного звука относительно другого, принятого в качестве опорного.
За единицу уровня громкости приняли величину уровня интенсивности чистого тона с частотой 1000 Гц. Единица уровня громкости называется фон Численно уровень громкости в фонах равен уровню интенсивности звука в децибелах на частоте 1000 Гц.
Определение уровня громкости тонов других частот производится по графику кривых равного уровня громкости. Эти графики называются изофонами (рис. 1.16). Каждая кривая получена путем субъективного сравнения громкости синусоидального звука произвольной частоты с громкостью звука с частотой 1 кГц. Если звук с частотой 100 Гц имеет уровень 50 дБ, а равногромкий ему звук с частотой 1 кГц имеет уровень 40 дБ, то уровень громкости звука с частотой 100 Гц равен 40 фон.
Для всех изофон характерно небольшое снижение в области частот 3...4 кГц и равномерный подъем при понижении частоты ниже 500 Гц. Величина подъема на разных уровнях неодинакова. При повышении уровня изофоны спрямляются, и подъем становится менее крутым. Это значит, что частотная характеристика слуха при больших уровнях звукового давления более равномерна, чем при малых. При малых уровнях громкости форма изофон приближается к кривой абсолютного порога слышимости, которой соответствует уровень громкости 3 фона.
Рис. 1.16. Кривые равного уровня громкости
Чтобы получить представление об уровне громкости звуков, с которыми мы постоянно сталкиваемся в жизни, приведем ряд примеров. Громкий разговор на расстоянии 1 метр - 65...70 фон, уровень громкости в поезде метро -85...90 фон, обычный разговор - 55.„60 фон, уровень громкости в читальном зале библиотеки - 25...30 фон.
Из кривых равного уровня громкости следует, что сохранение естественного звучания, которое соответствует условиям записи, возможно только при условии воспроизведения записи с тем же уровнем. В противном случае нарушаются соотношения между частотными составляющими. При больших уровнях воспроизведения происходит субъективное усиление НЧ-составляющих.
При малых уровнях возникает их субъективное подавление. Для сохранения тембра независимо от уровня в радиотехнике применяют компенсированные регуляторы усиления, в которых при уменьшении усиления осуществляется подъем в области НЧ.
Свойство слуха по-разному оценивать уровень громкости звука в зависимости от его частоты и уровня интенсивности используется в измерительных приборах. Например, в шумомерах при оценке шума в производственных помещениях используют три взвешивающих фильтра, которые ослабляют низкие частоты, как это делает слуховая система. Эти фильтры имеют разные амплитудно-частотные характеристики: А, В и С (рис. 1.17):
■ кривая А со спадом -30 дБ на частоте 50 Гц по отношению к уровню на частоте 1000 Гц,
■ кривая В со спадом -12 дБ на частоте 50 Гц,
■ кривая С со спадом -2 дБ на частоте 50 Гц.'
Рис. 1.17. Взвешенные амплитудно-частотные характеристики фильтров для измерения уровня громкости шума
Если эти кривые перевернуть «вверх ногами», то получим изофоны, и тогда кривая А соответствует изофоне 30 фон. С помощью этих кривых мы как бы оцениваем уровень громкости при различных уровнях звука:
А - слабый уровень (30 дБ на 1 кГц) - дБА,
В — соответствует изофоне 70 дБ — дБВ,
С - соответствует изофоне 100 дБ (очень высокий уровень) - дБС.
График кривых равного уровня громкости существенно видоизменяется, если в качестве испытательного звука использовать полосы шума шириной ΔF На графике рис. 1.18 по оси абсцисс откладывается ширина полосы шума от 20 до 4 000 Гц. Центральная частота этих полос 1000 Гц. Для этой частоты критическая полоса шума равна 160 Гц. По оси ординат графика откладывается уровень интенсивности шума Nm в полосе, при которой достигается ощущение одной и той же громкости.
Как видно, в полосе шириной до 160 Гц, уровень громкости шума не зависит от его полосы. Он полностью определяется уровнем интенсивности шума NШ при увеличении полосы шума выше критической для обеспечения постоянного уровня громкости необходимо уменьшать уровень шума примерно на 3 дБ при каждом удвоении ширины полосы шума.
График кривых равного уровня громкости шума можно привести к виду, показанному на рис. 1.19. Из этих графиков видно, что пока ширина полосы шума меньше 160 Гц, а это критическая полоса для 1 кГц, уровень громкости шума при всех уровнях интенсивности шума от ширины полосы не зависит. При очень малых уровнях шума уровень громкости шума вообще не зависит от его полосы. При больших уровнях шума уровень громкости увеличивается с расширением полосы шума.
В случае широкополосного шума при больших уровнях интенсивности шума уровень его громкости значительно превышает уровень громкости тона такого же уровня интенсивности, как и шума. Так, при уровне интенсивности тона с частотой 1 кГц 60 дБ уровень его громкости составляет 60 фон. При таком же уровне интенсивности; широкополосного шума его уровень громкости значительно выше и равен 79 фон.
При малых уровнях интенсивности тона и шума (15 дБ и ниже) различие в уровнях громкости тона и широкополосного шума очень мало. При очень малых уровнях интенсивности (менее 5 дБ) уровень громкости шума уже меньше уровня громкости тона.
Громкостью называется субъективное ощущение, позволяющее слуховой системе располагать звуки по шкале от тихих до громких звуков. Громкость звука связана, прежде всего, со звуковым давлением. Обычно, чем больше звуковое давление, тем громче звучит акустическая система. Однако это не всегда так. Громкость также зависит от частоты, спектрального состава, длительности звука и его локализации в пространстве. Термин громкость иногда заменяют абсолютной громкостью, относительной или субъективной громкостью - это все одно и тоже.
Необходимость введения понятия громкости связана с тем, что на практике часто представляет интерес не уровень громкости, выраженный в фонах, а величина, показывающая во сколько раз данный звук громче другого. Представляет интерес также вопрос о том, как складываются громкости двух разных тонов. Так, если имеются два тона разных частот с уровнем 70 фон, это не значит, что суммарный уровень громкости равен 140 фон.
Для оценки громкости принята специальная единица - сон. Громкость 1 сон - это громкость тонального звука с частотой 1 кГц с уровнем 40 дБ.
Зависимость громкости от уровня звукового давления является сугубо нелинейной, у нее логарифмический характер. При увеличении уровня давления звука на 10 дБ его громкость возрастает в 2 раза. Это значит, что уровням громкости 40, 50 и 60 фон соответствуют громкости 1, 2 и 4 сона.
График, показанный на рис. 1.20, позволяет вычислить уровень громкости сложного звука с дискретным спектром. Пусть мы имеем 3 тона: 100, 500 и 3500 Гц с уровнями звукового давления соответственно 84, 77 и 71 дБ. Требуется определить уровень громкости сложного звука. По кривым равного уровня громкости (рис. 1.16) определяем уровень громкости каждой составляющей. Они все попадают на одну кривую, поэтому у всех один уровень громкости 80 фон. По графику на рис. 1.20 определяем громкость каждой составляющей -21,5 сон. Общая громкость равна сумме - 64,5 сон. По этому же графику находим общий уровень громкости — 93 фона.
Приведенный на рис. 1.20 график громкости S для уровней громкости б выше 40 фон хорошо апроксимируется формулой I
S = 2 (G-40)/ 10 сон,G >40фон.
Для меньших значений уровней громкости можно воспользоваться формулой Стивенса для частоты 1 кГц
S(1000Гц)= 42Р0,6
С помощью этих формул приведенный выше график кривых равного уровня громкости, может быть пересчитан в график кривых равной громкости (рис. 1.21). Для этого требуется заменить значения уровня громкости в фонах соответствующим значением громкости в сонах.
Чтобы представить громкость звуков, с которыми мы постоянно сталкиваемся в жизни, в таблице 1.1 приведены уровни громкости и громкость для наиболее типовых звучаний.
В случае широкополосного шума при больших уровнях звукового давления громкость шума значительно превышает громкость тона. Так, при уровне звукового давления 60 дБ тона с частотой 1 кГц его громкость составляет 4 сона а громкость широкополосного шума с таким же уровнем давления почти в 4 раза больше и равна 15 сон.
При малых уровнях звукового давления (около 15 дБ) громкости тона и широкополосного шума практически одинаковы и равны 0,06 сона. При еще меньших звуковых давлениях громкость широкополосного шума становится меньше громкости тона.
Таблица 1.1—Средний уровень громкости и громкость наиболее
часто встречающихся звуков и шумов
1.7.3. Временные характеристики слуха
Слуховой аппарат инерционен: при исчезновении звука слуховое ощущение исчезает не сразу, а постепенно, уменьшаясь до нуля.
Время, в течение которого ощущение по уровню громкости уменьшается на 9... 10 фон, называется постоянной времени слуха. В среднем она равна 30…50мс.
Если к слушателю приходят два коротких звуковых импульса, одинаковые по составу и уровню, но один из них запаздывает, то они будут восприниматься слитно, когда запаздывание не превышает 50 мс. При больших интервалах запаздывания оба импульса воспринимаются раздельно. Это явление называется известно как эхо. Эхо возникает, когда разность хода прямого и отраженного звуков более 18 м.
Если уровень запаздывающего звука намного меньше уровня первого, х0 он не будет принят раздельно, даже если время запаздывания больше 50 мс. Это обусловлено эффектом маскировки — ощущение от первого звука маскирует второй.
К временным характеристикам слуха относится явление послемаскировки: слабые звуки, идущие сразу после громких звуков, оказываются полностью или частично замаскированными из-за последействия предыдущего звука К временным характеристикам звука относится и время установления высоты тона звука. Чтобы слух мог приближенно оценить высоту звука необходимо два-три периода колебаний.
При воздействии на барабанную перепонку уха достаточно длительного звука большой интенсивности воспринимаемая громкость постепенно уменьшается. Это значит, что во время действия длительного громкого звука падает чувствительность уха. После прекращения действия звука чувствительность слуха постепенно восстанавливается. Это явление называется адаптацией слуха. Явление адаптации слуха поясняется рис. 1.22 и рис. 1.23.
Рис. 1.22. Графики адаптации слуха при увеличении звукового давления
На этих рисунках в качестве примера приведено воздействие звука в виде импульсов длительностью по 2 минуты на чувствительность слуха. При уровне звукового давления 94 дБ (рис. 1.22, а) происходит плавное понижение воспринимаемого уровня громкости с 94 до 85 фон (рис. 1.22, б). Скорость падения уровня громкости по времени от 0 до 40 с высокая, затем она уменьшается почти до нуля.
При последующем скачкообразном возрастании звукового давления на 6 дБ
(рис. 1.22, б) уровень громкости сначала возрастает на 9 фон, а затем вновь начинает уменьшаться. Однако, уменьшение уровня громкости в этом случае заметно меньше
(с 95 до 88 фон). Это значит, что степень адаптации тем выше, чем громче утомляющий звук.
На рис. 1.23, б показано изменение воспринимаемого уровня громкости при скачкообразном уменьшении звукового давления с 94 до 85 дБ. При этом скачок уменьшения уровня громкости составляет почти 20 фон. Затем происходит адаптация слуха к тишине, и чувствительность уха частично восстанавливается, а воспринимаемый уровень громкости через 2 минуты возрастает на 12 фон.
Рис. 1.23. Графики адаптации слуха при уменьшении звукового давления
Таким образом, адаптация проявляется в виде потери чувствительности слуха при достаточно длительном воздействии громкого звука и восстановлении ее при уменьшении громкости утомляющего звука. Защитная способность уха обладает инерцией - этот механизм начинает работать через 30...40 мс после начала звука. Полная защита слуха от воздействия высоких уровней не достигается даже за 150 мс. Поэтому для слуха наиболее опасны очень коротки громкие звуки.
1.9. Маскировка во временной области
До сих пор мы определяли коэффициент маскировки в предположении что маскируемый и маскирующий звуки присутствуют одновременно. Однако из-за явления адаптации слуха возникают ситуации, когда достаточно громкие звуки маскируют, делают практически неслышимыми звуки, следующие за ними. В некоторых случаях маскируются предшествующие звуки.
Такой вид маскировки, когда звуки не перекрываются по времени, называется временной маскировкой. Она разделяется на предмаскировку и послемаскировку. Послемаскировка проявляется на интервале времени 100...200 мс после окончания маскирующего звука. Предмаскировка проявляется на значительно более короткие временные интервалы около 10 мс. Длительность предмаскировки в очень сильной степени зависит от особенностей конкретных людей. По этой причине механизмы временной маскировки при цифровом кодировании звука пока не используются. Однако звукорежиссерам эти механизмы надо знать.
Основные особенности временной маскировки:
■ послемаскировка более эффективна, чем предмаскировка;
■ более высокий уровень маскировки наблюдается при поступлении маскирующего звука через короткий временной интервал вслед за маскируемым звуком;
■ маскировка выражена сильнее, когда маскирующий и маскируемый звуки подаются в одно ухо;
■ уровень маскировки обычно резко падает при увеличении временного интервала свыше 15 мс;
» увеличение уровня интенсивности маскирующего звука на 10 дБ вызывает сдвиг порога маскировки на 3 дБ;
■ длительность маскирующего звука влияет на степень предмаскировки, но не на послемаскировку;
■ временная маскировка зависит от частотного соотношения маскирующего и маскируемого звуков, маскировка проявляется сильнее, когда частоты этих звуков близки.
1.10. Нелинейность слуха. Субъективные гармоники
Слуховой аппарат человека является нелинейной системой. Нелинейносгь слуха проявляется в том, что при громких звуках в слуховом аппарате возникают гармоники: 2, 3 и вплоть до 9 (рис. 1.24). Эти гармоники называются субъективные, так как их нет в исходном звуке.
Пока уровень звукового давления не превышает 40 дБ, субъективные нелинейные искажения не возникают. При увеличении уровня интенсивности винного тона свыше 60 дБ величина субъективных гармоник интенсивно возрастает до 10-50%.. Это имеет существенное значение для восприятия низких частот 16...100 Гц. Предполагается, что звуки с частотой ниже 100 Гц воспринимаются не сами по себе, а из-за создаваемых ими гармоник, т.е. из-за нелинейности слуха.
Рис. 1.24. Зависимость коэффициента субъективных гармоник от уровня звукового давления (цифрами 2...9 обозначены номера гармоник)
Субъективные гармоники 2,3,4 и 5 порядков не приводят к заметному ухудшению качества звучания, они только изменяют тембр звука. Благодаря им, звучание часто становится лучше. Гармоники более высокого порядка, особенно нечетные, заметно ухудшают качество звучания. Еще в 30-е годы фирма Филипс разработала малогабаритный ламповый радиоприемник, в котором хорошо воспроизводились низкие частоты. Это достигалось за счет введения нелинейных искажений - второй и третьей гармоник.
1.11. Разрешающая способность слуха
Напомним, что под разрешающей способностью слуха понимаются минимальные изменения звукового давления и частоты, которые могут быть заметны слухом. Разрешающую способность иногда называют дифференциальным порогом восприятия.
Амплитудные слуховые пороги определяются как минимально заметная слух амплитудная модуляция. Наибольшая чувствительность слуха к амплитудной модуляции имеет место при частоте модуляции 4 Гц.
Графики на рис. 1.25 иллюстрируют, как меняется пороговое значение уровня звукового давления Nпор, при котором заметна на слух амплитуду, модуляция заданной величины от 1,5 до 20%. Как видно из этих графиков:
■ чем меньше глубина амплитудной модуляции, тем выше пороговое значение уровня звукового давления, при котором эта модуляция заметна;
■ уровень порога заметности амплитудной модуляции по звуковому давлению минимален в области частот 1...2 кГц, к нижним и верхним частотам он существенно возрастает;
■ кривые равной заметности амплитудной модуляции почти повторяют форму кривых равного уровня громкости.
Разрешающая способность слуха к амплитудной модуляции определяется: отношением приращения звукового давления к среднему значению давления ΔР/Р.
В зависимости от уровня громкости и частоты амплитудномодулированного колебания разрешающая способность может быть от 2 до 40 %.
Рис. 1.25. Кривые равной заметности амплитудной модуляции с частотой 4 Гц
На рис. 1.26 представлена зависимость разрешающей способности слуха к амплитудной модуляции от уровня громкости модулированного звука и его частоты. Как видно из этих кривых:
■ разрешающая способность слуха к амплитудной модуляции очень сильно зависит от уровня громкости модулированного звука;
■ чем ниже уровень громкости, тем больше зависимость разрешающей способности слуха от частоты.
Частотные слуховые пороги определяются как минимально заметная на слух частотная модуляция. Наибольшая чувствительность слуха к частотной модуляции имеет место при частоте модуляции 4 Гц.
Графики, представленные на рис. 1.27, иллюстрируют, как меняется пороговое значение уровня звукового давления Nпор, при котором заметна на слух частотная модуляция заданной величины от 0,2 до 10%. Как видно из этих графиков:
■ значения глубины частотной модуляции, которая заметна, значительно
меньше, чем при амплитудной модуляции;
■ чем меньше глубина частотной модуляции, тем выше пороговое значение уровня звукового давления, при котором эта модуляция заметна;
■ уровень порога заметности частотной модуляции по звуковому давлению
минимален в области частот 2...4 кГц, к верхним и особенно к нижним частотам он существенно возрастает;
■ абсолютные значения заметных изменений частоты составляют от 2 до 10 Гц
Из рис. 1.28 следует:
■ частотная разрешающая способность определяется отношением удвоенной глубины модуляции к частоте несущей;
■ она сильно зависит от уровня громкости звука, чем меньше уровень громкости модулированного звука, тем меньше разрешающая способность слуха к частотной модуляции;
■ с уменьшением уровня громкости звука резче становится частотная зависимость частотной разрешающей способности слуха.
Амплитудная и частотная модуляция звука могут иметь как положительное, так и отрицательное влияние. Поэтому вопрос, что лучше - высокая или низкая разрешающая способности не имеет однозначного ответа. В музыке для обогащения звучания часто используется преднамеренная амплитудная и частотная модуляция (тремоло, амплитудное и частотное вибрато).
С другой стороны, из-за несовершенства технической аппаратуры записи и воспроизведения звука имеет место паразитная амплитудная и частотная модуляция, например, детонация в магнитофонах, которая резко ухудшает качество звучания. Желательно, чтобы такая паразитная модуляция была незаметна на слух. В какой-то мере это реализуется выбором частоты модуляции и ограничением ее глубины ниже порога слышимости. В музыке частота модуляции должна быть ближе к 4 Гц, а
в магнитофонах - как можно выше или ниже этой частоты.
Бинауральным слухом называется его способность определять направление прихода звуковой волны, т.е. локализовать положение источника звука
в пространстве. Эта способность достигается благодаря пространственной не совмещенности двух ушей в сочетании с экранирующим влиянием головы. Это
приводит к тому, что всегда имеет место неидентичность возбуждения правого
левого уха. Этот факт обеспечивает человеку возможность воспринимать
пространственный звуковой мир и оценивать перемещение источников звука в
пространстве.
К числу основных свойств бинаурального слуха можно отнести:
■ пространственную локализацию;
■ эффект предшествования;
■ бинауральное суммирование громкости;
■ бинауральную демаскировку.
Такие возможности слуха достигаются благодаря трем факторам.
1. Временным — возникающим из-за несовпадения моментов воздействия одинаковых фаз звука на левое и правое ухо.
2. Амплитудным — возникающим из-за неодинаковой величины звуковых давлений на левое и правое ухо вследствие дифракции звуковой волны вокруг головы, например, образования акустической тени со стороны, обратной источнику звука.
3. Спектральным - возникающим из-за разницы в спектральном составе звуков, воспринимаемых левым и правым ухом, вследствие не одинакового экранирующего влияния головы и ушных раковин на низких и высоких звуковых частотах.
Локализация источников звука. Прослушивая звучание симфонического оркестра в концертном зале, слушатель отчетливо воспринимает и разделяет расположение инструментов в горизонтальной плоскости на сцене, их расположение по глубине, а также ощущает пространственность звукового образа. Механизмы локализации источников звука по глубине, в горизонтальной и вертикальной плоскостях, различаются.
Азимутальная локализация источников звука. Если под некоторым углом φ к медианной плоскости головы 1-1 слушателя находится источник звука (рис. 1.29), то фронтальная локализация включает определение азимута (угла φ) и расстояния 1 до источника звука. Вследствие дифракции звуковой волны вокруг головы слушателя и частотно-зависимого затухания этой волны с расстоянием 1 звуки к правому и левому ушам слушателя приходят не одинаковыми. Они отличаются по уровню интенсивности на величину ΔN и по времени — а величину Δt, а также являются функцией азимута и частоты. Эти параметры являются носителями информации о локализации источника звука.
Низкие частоты имеют длину волны больше, чем диаметр головы слушателя, поэтому они огибают голову и не дают акустической тени. Звуки высокой
частоты имеют длину волны меньше, чем диаметр головы слушателя, поэтому
они не проходят к левому уху. Возникающая при этом вследствие явления дифракции акустическая тень уменьшает интенсивность звука, поступающего левое ухо (рис. 1.30).
i
Рис. 1.29. Возникновение разности времени прихода звуковой волны в левое в
правое уши слушателя
Рис. 1.30. Образование акустической тени
Разность времени Δt прихода одинаковых фаз звука к ушам равна
Δt = Δx/C0,
где Δх- разность хода звуковой волны до левого и правого уха, Со- скорой распространение звука в воздухе.
Максимальная разность хода Δх =21 см при расположении источника под углом 90° (сбоку). Величина d больше средней базы между ушами В=18 см и меньше наикратчайшего расстояния вокруг головы, равного 26 см (рис. 1.29 )
Максимальное время задержки равно 0,63 мс. Это справедливо только для синусоидальных звуков с частотой не выше 800 Гц. На больших частотах время запаздывания становится больше половины периода колебания, поэтому понятие фазы теряет смысл.
Из опыта следует также, что чистые тоны высоких частот (свыше 8 кГц) почти не поддаются локализации. Также слабо выражена способность локализации на частотах ниже 300 Гц. На частотах меньше 150 Гц локализация отсутствует вообще. На этом основании неважно, где следует размещать НЧ акустические системы при стереовоспроизведении.
Наибольшая точность локализации достигается при восприятии сложных
ков и звуковых импульсов. При этом важным фактором является спектральный состав звуков. Так, если звук содержит НЧ и ВЧ составляющие и действует
углом 90° на правое ухо, то в левом ухе ВЧ составляющих не будет из-за
акустической тени головы.
Наименьший ощутимый угол восприятия отклонения источника звуковых импульсов равен 3°. Эту величину следует считать бинауральной разрешающей способностью слуха для фронтального направления. Точность локализации источников звука, расположенных слева и справа, значительно меньше и составляет примерно 12°. Для тылового направления эта величина равна около 6°.
При локализации источников звука параметры ΔN и Δt полностью взаимозаменяемы. При оценке азимута φ орган слуха обменивает эквивалентное значение интенсивностной разности ΔNЭK на временную разность
где К*- коэффициент эквивалентности. Суммарное значение эквивалентной
интенсивности ΔNСУМ
является дополнительным фактором для определения азимута.
Величины Δt и ΔN являются не только линейными функциями азимутального угла, но зависят также от частоты. Они изменяются при переходе от одной частотной группы слуха к другой, оставаясь примерно постоянными в пределах одной частотной группы. На низких частотах (ниже 500 Гц) ΔN « К*Δt. В диапазоне средних частот от 500 до 5000 Гц оба фактора ΔN и Δt примерно в равной степени способствуют созданию ощущения направления.
Таким образом, при оценке азимута источника звука голова и ушные раковины выполняют функцию пространственного фильтра. Суждение о величине углового смещения φ источника звука от медианной плоскости связано с оценкой слуховой системой временных Δt интенсивностных ΔN различий пары бинауральных звуков. Такая оценка осуществляется в каждой частотной группе слуха и сравнивается с заученными, приобретенными в результате опыта образцами, которые хранятся в слуховой памяти. Все это и позволяет определить азимут.
Локализация источников звука в вертикальной плоскости. Способность определять направление прихода звука в вертикальной плоскости у человека развита очень слабо, и разрешение составляет всего 10...150. Эта способность связана с ориентацией и формой ушей.
Механизм восприятия звука в плоскости фронт-тыл. Когда один источник излучения (А или В) расположен во фронтальной плоскости, или тыловой, что значения ΔN и Δt для них практически одинаковы, то тогда невозможно оценить азимутальный угол φ источника звука относительно медианной плоскости (рис. 1.31). Несмотря на это локализация оказывается безошибочной и за счет дополнительного спектрального анализа бинауральной пары звуков.
Орган слуха человека имеет как бы два разных механизма для оценка местоположения источника звука в пространстве. Один из них (фронт-тыл) определяет, находится ли источник спереди или сзади слушателя, другой определяет направление на источник звука относительно медианной плоскости (угол j) Если источники звука находятся в медианной плоскости, то r1 = r2.
|
Рис. 1.31. Схема восприятия звука в медианной плоскости фронт-тыл
Ключевым моментом для понимания работы механизма фронт-тыл при этом является зависимость, показанная на рис. 1.32. Эта обусловленность представляет собой график изменения разности уровней звукового давления ΔNФT на правое ухо и левое, в зависимости от частоты между уровнями давлений фронтального NФ и тылового NT громкоговорителей
ΔNФТ = NФ-Nт.
Как видно из графика, на одних частотных полосах NФ>Nт., на других - наоборот. Для уверенной фиксации слушателем фронтального или тылового направления достаточно иметь различие громкоговорителей по звуковому давлению больше 1.5...2 дБ. Условия работы фронт-тыл ухудшаются, если громкоговорители находятся вне медианной плоскости. Этот механизм вообще не работает при φ = 90° и 270°.
Локализация источников звука по глубине. Наряду с азимутом слушатель уверенно оценивает расстояние до источника звука.
1 При средних расстояниях до источника звука (3...15 м) приближение удаление источника звука сопровождается изменением его интенсивности. В
свободном звуковом поле на НЧ увеличение расстояния вдвое сопровождается уменьшением уровня звукового давления на 6 дБ. На слух расстояние всегда
является меньше, чем оно есть. Ошибка растет с увеличением расстояния.
2. На близких расстояниях (менее 3 м) на глубинную локализацию оказывает
влияние дифракция на ушной раковине и голове, т.е. сказывается разность
уровней интенсивности и временные задержки. Точность глубинной локализации
при смещении широкополосного источника от 50 до 150 см не превышает
15.-30%.
3. При больших расстояниях (свыше 15 м) начинает сказываться затухание, зависящее от расстояния, проходимого звуковой волной. При этом ВЧ составляющие затухают быстрее, меняется тембр. На распространение звука оказывают влияние влажность воздуха и направление ветра. Увеличение амплитуды НЧ составляющих спектра звука вызывает ощущение приближения источника звука. Искусственное уменьшение ВЧ составляющих спектра воспринимается как удаление источника звука.
4. В отличие от азимутальной локализации глубинная локализация возможна при моноуральном слушании, однако, бинауральное восприятие существенно повышает точность оценки расстояния. При этом орган слуха подсознательно оценивает величины Δt и NСР/ΔN, где NСР - среднее значение интенсивностей звуков, действующих на левое ухо и правое. При расстояниях больше Ю м эти факторы не работают.
В помещениях, где наряду с прямым звуком на слушателя воздействует значительное число отраженных волн, важным фактором, стимулирующим глубинную локализацию, является эффект предшествования. Суть этого эффекта состоит в отделении слуховой системой прямого звука от его реверберационных продолжений. Суждение о направлении на источник звука формирую прямые звуки, в то время как часть следующих за ними повторений на интервале от 1,5 до 30...50 мс подавляется слуховой системой. При больших задержках подавления не происходит.
Благодаря эффекту предшествования оказывается возможной слуховая пеленгация источника звука в помещениях, где в точку расположения слушателя наряду с прямым звуком поступает значительное число волн, отраженных от его поверхностей.
1.14. Бинауральное маскирование и демаскирование звуков
Когда маскирующий и маскируемый звуки поступают в разные уши, то следует говорить о бинауральной маскировке. Величина сдвига слухового порога при бинауральном маскировании всегда гораздо меньше, чем при моноуральном маскировании, и проявляется она в большей степени на высоких частотах.
Бинауральная маскировка возникает только при условии, если время воздействия маскирующего звука не менее 250 мс. Наиболее ярко выражено маскирование, когда маскируемый и маскирующий звуки близки по частоте. При этом в отличие от моноурального маскирования отсутствуют биения и маскирование выражено в очень узкой полосе частот, и этот диапазон совпадает с шириной критических полос слуха
(рис. 1.33).
Степень бинауральной маскировки нарастает, когда оба звука имеют пульсирующий характер, что характерно для речи и музыки.
Способность настраиваться на один из многих одновременно действующих источников звуков составляет одну из удивительных особенностей человеческого слуха. Одной из важнейших составляющих этой особенности слуха человека является бинауральная демаскировка звуков.
Бинауральной демаскировкой называют снижение порога маскировки при выделении отдельных звуков из одновременно действующей на слушателя их совокупности. Это достигается путем дополнительной обработки входной информации, как в периферийном, так и центральном отделах слуховой системы и мозга. Обычно звуки имеют перекрывающиеся спектры, поэтому классическая теория фильтров с ее областями пропускания и затухания здесь абсолютно несостоятельна. Ухо является значительно более тонким инструментом.
Бинауральная демаскировка предполагает использование слуховой системой временных Δt и интенсивностных τN различий пар бинауральных звуков, соответствующих отдельным источникам для их разделения друг от друга Некоторые исследователи полагают, что в основе этого явления лежит чувствительность к сдвигу фаз между звуками на частотах ниже 1500 Гц. Если в стереотелефоны подать одновременно один и тот же шум и один и тот же маскируемый звук, то кроме шума, мы ничего не услышим. Если же маскируемый звук подать только в одно ухо, то мы его будем слышать, его уровень субъективно повышается. Этот эффект и называется бинауральной демаскировкой.
При этом шум и звук локализируются в разных местах головы: шум в середине головы, звук ближе к уху, на который он подается. Таким образом, демаскировка осуществляется из-за разной субъективной локализации шума и звука.
Рис. 1.33. График бинауральной маскировки
Аналогичное явление происходит при тихом разговоре в шумной аудитории, например, на дискотеке. Человек непроизвольно поворачивает голову и находит положение, при котором в оба уха поступает одинаковый шум, который воспринимается в середине головы. Звук разговора локализируется в другом месте - ближе к уху, и он хорошо слышен. Этот механизм работает только при наличии в спектре звука НЧ составляющих.
ГЛАВА 2. ЗВУКОВЫЕ СИГНАЛЫ [2,3,10-14]
Различают первичные и вторичные звуковые сигналы. К первичным относятся: сигналы, создаваемые музыкальными инструментами, пением, речью; шумовые сигналы, создаваемые для сопровождения различных музыкальных речевых художественных передач (шум поезда, рокот моря, свист ветра и т. п)
При оценке трактов вещания и связи полагают, что каждый акустический сигнал почти всегда является случайным в вероятностном смысле и несет в себе информацию, соответствующую его объему. Строго говоря, звуковые сигналы художественных программ, не могут рассматриваться как случайные в вероятностном смысле, так как они могут быть хорошо известны слушателям, и поэтому не нести в себе информацию. Для слушателя эти сигналы служат средством удовлетворения эстетических потребностей, а не получения информации. Однако при расчете каналов звукопередачи эти сигналы считают несущими информацию, соответствующую их объему. Хотя в музыкальных сигналах очень большие участки могут иметь периодический характер, в среднем, для больших интервалов времени их также можно рассматривать как случайные. Поэтому параметры звуковых сигналов определяются их распределениями по уровню, по частотному диапазону и во времени*.
К вторичным звуковым сигналам относятся сигналы, воспроизводимые электроакустическими устройствами, то есть первичные сигналы, прошедшие по электроакустическим трактам связи и вещания и соответственно видоизмененные по своим параметрам.
В процессе любой передачи уровень акустического сигнала непрерывно изменяется, причем диапазон его изменения может быть довольно широким. На рис. 2.1, а показана зависимость уровня сигнала от времени, называемая уровнеграммой. Обычно ее приводят для уровня, определенного при постоянно времени измерителя, равной или 150...200 мс (субъективная уровнеграмма) или 20... 3 0 мс (объективная уровнеграмма).
Так как звуковой сигнал изменяется случайным образом, его интегральное распределение и среднее значение можно определить следующим образ Возьмем
какой-либо уровень, например Lk (рис. 2.1, а). Можно написать, что время, в течение которого уровень сигнала будет не ниже Lk, определится суммой
τ k= Δt1 + Δt2 + Δt3 + ••• + Δtn. где Δtn - временные интервалы действия сигнала Следовательно, относительное время пребывания уровня сигнала над
заданным равно gk = τ k/ Т , где Т - длительность времени анализа сигнала (она должна быть достаточно большой: не менее 15с для речи и 1 мин для музыки), Если таким образом определить величину gk для разных уровней, то можно троить кривую интегрального распределения уровней для данного сигнала. На рис 2.1, б показано такое распределение для рассматриваемой уровнеграммы.
Рис. 2.1. К определению динамического диапазона:
а) уровнеграмма; б) построение по ней интегрального распределения
Установлено, что распределения, полученные для первичных музыкальных и речевых сигналов, по форме близки к нормальному закону распределения. Для анализа звуковых сигналов введены понятия квазимаксимального и
квазиминимального уровней сигнала Lмакс и Lмин Их определяют по относительному времени пребывания уровня сигнала над соответствующим
№ем. Для квазимаксимального уровня это время принято брать равным 2% для
музыкального сигнала и 1 % - для речевого, а для квазиминимального — соответственно 98 и 99% (рис. 2.1, б). Выбор именно таких значений для Lмакс и Lмин основан на том, что более краткие пики и резкие минимумы сигнала практически не воспринимаются слухом (для речевого сигнала процент взят меньше, чем для музыкального, так как очень краткие звуки в речи все же несут некоторую информацию).
Разность между квазимаксимальным и квазиминимальным уровнями называют динамическим диапазономъ
(2.1.)
Динамический диапазон для некоторых видов звуковых сигналов приведён в таблице 2.1.
Таблица 2.1 - Динамический диапазон для некоторых видов звуковых сигналов
Динамический диапазон сигнала всегда необходимо сопоставлять с динамическим диапазоном канала звукопередачи DK:
где UШ – уровень шума в канале; UHOM - номинальное напряжение; ΔN1 - уровень перекрытия помех и шумов, дБ (обычно не менее 10 дБ); ΔN2 - допуск на перегрузку
(3... 6) дБ.
Как видно из таблицы, для передачи натурального динамического диапазона требуется высококачественная аппаратура (с большим запасом линейной части амплитудной характеристики). В большинстве случаев динамический диапазон первичных звуковых сигналов превышает возможности аналоговых средств связи и вещания. Поэтому при их использовании приходится предварительно сжимать динамический диапазон или же мириться с появлением значительных искажений в тракте передачи.
Средний уровень интенсивности акустического сигнала можно определять или по слуховому ощущению (субъективное среднее), или как средний статистический по интенсивности для длительных интервалов времени (среднее длительное), или как средний, измеряемый прибором, имеющим небольшую постоянную времени (объективное среднее). Для вторичных сигналов достаточно определять только средний уровень по ощущению, для первичных необходимо знать все средние уровни.
Эти средние уровни сигнала можно измерить, изменяя постоянную времени прибора. Учитывая, что мгновенная мощность сигнала изменяется от нуля до амплитудного значения, минимальная постоянная времени прибора для измерения объективного среднего уровня не должна быть меньше максимального полупериода колебаний (для F =20 Гц, Тмакс /2 = 25 мс). Так как постоянная времени слуха в среднем равна 150 мс, то для измерения среднего уровня по слуховому ощущению постоянная времени должна быть около 150 мс. Для получения длительного среднего (усредненного) уровня постоянную времени прибора берут равной 15с для речи и 1 мин - для музыки.
Для каждого из средних значений уровня средняя интенсивность определяется по формуле
Где exp — учитывает процесс регистрации сигнала с учетом «памяти»
прибора, Т - постоянная времени прибора; f(t) - временная зависимость интенсивности сигнала.
В соответствии с (1.7) средний акустический уровень сигнала
Разность между квазимаксимальным и усредненным уровнем (за дли-S тельный промежуток времени, например, 15 с для речи и 1 мин. для музыки); называют пикфактором:
Пикфактор показывает, насколько ниже надо взять усредненный уровень передачи по сравнению с максимально допускаемым уровнем в канале, чтобы не перегружать канал. Для музыкальных сигналов пикфактор доходит до 20 дБ и более, для речевого сигнала - не превышает 12 дБ. Эти данные пикфактора относятся к сигналам, не прошедшим никакой обработки, в том числе с учетом воздействия акустических свойств помещения.
2.4. Частотный диапазон и спектры
Звуковой сигнал от каждого из первичных источников звука, как правило, имеет непрерывно изменяющиеся форму и состав спектра. Спектры могут быть высоко и низкочастотными, дискретными и сплошными. У каждого источника звука, даже того же самого типа (например, скрипка в оркестре), спектры имеют индивидуальные особенности, что придает звучанию характерную окраску. Эту окраску называют тембром. Существуют понятия тембра скрипки, тромбона, органа и т. п., а также тембра голоса: звонкий, когда подчеркнуты высокочастотные составляющие; глухой, когда они подавлены. В первую очередь, представляют интерес- средний спектр для источников звука каждого типа, а для оценки искажений сигнала - спектр, усредненный за длительный интервал времени (15 с для информационных сигналов и 1 мин для художественных). Усредненный спектр является, как правило, сплошным и достаточно сглаженным по форме.
Сплошные спектры характеризуются зависимостью спектральной плотности от частоты (эту зависимость называют энергетическим спектром). Спектральной плотностью называется интенсивность звука в полосе частот шириной, равной единице частоты. Для акустики эту полосу берут равной 1 Гц Спектральная плотность G= I∆f / ∆f , где
I∆f - интенсивность, измеренная с помощью узкополосных фильтров.
Для удобства оценки введена логарифмическая мера плотности спектра аналогично уровню интенсивности. Эту меру называют уровнем спектральной плотности или спектральным уровнем. Спектральный уровень В = 10 lg J/ I0 ,
где Io= 10-12 Вт/м2- интенсивность, соответствующая нулевому уровню.
Очень часто для характеристики спектра вместо спектральной плотности используют интенсивности и уровни интенсивности, измеренные в октавной, полуоктавной или третьоктавной полосе частот. Нетрудно установить связь между спектральным уровнем и уровнем в отставной (полуоктавной или третьоктавной) полосе. Спектральный уровень
а уровень в октавной полосе
где∆f ОКТ - ширина соответствующей октавной полосы
При известном спектре сигнала можно определить его суммарную интенсивность. Так, если спектр задан в уровнях интенсивности для третьоктавных полос, то достаточно перевести эти уровни (в каждой из полос) в интенсивности IOKT = Io100'1Loкт и затем просуммировать все интенсивности. Сумма всех I0КТ дает суммарную интенсивность Iсум для всего спектра. Суммарный уровень
Если спектр задан в спектральных уровнях, то, исходя из их определений для всего спектра точный суммарный уровень
где FВ и FН - верхняя и нижняя границы частотного диапазона.
Приближенно суммарный уровень можно найти делением частотного диапазона на n полосок шириною ∆fk, в пределах которых спектральный уровень Вk примерно постоянен. Суммарный уровень
Частотный диапазон акустического сигнала определяют из частотной зависимости спектральных уровней. Это определение можно сделать или по спаду спектральных уровней или приближенно, на слух. Субъективными границами считают заметность ограничения диапазона для 75% слушателей. В таблице 2 2 приведены частотные диапазоны для ряда первичных источников акустического сигнала.
Таблица 2.2 - Частотные диапазоны для некоторых первичных источников
Если спектры имеют плавный спад в ту или иную сторону, то их еще оценивают тенденцией, то есть средним наклоном спектральных уровней в сторону низких или высоких частот, например, речевой спектр имеет тенденцию, Равную - 6 дБ/окт (спад в сторону высоких частот).
К акустическим сигналам относят в ряде случаев и акустические шумы.
Рис. 2.2 приведены спектры трех типов шумов: белого, розового и речевого
Термин «белые» относится к шумам, имеющим одинаковую спектральную
плотность во всем частотном диапазоне, «розовые»* - к шумам с тенденцией
спада плотности на 3 дБ/окт в сторону высоких частот. Речевые шумы - шумы, создаваемые одновременным разговором нескольких человек.
2.5. Временные характеристики акустического сигнала
К временным характеристикам сигнала относятся уровнеграмма и время корреляции. Уровнеграмма сигнала дает возможность определить резкие переходы интенсивности и, следовательно, с ее помощью можно предъявить требование к постоянным времени трактов передачи сигнала. Такие временные характеристики сигнала, как время корреляции, используют редко, хотя опыты показывают, что этот параметр играет значительную роль при определении качества звучания.
Каждом человеку свойственна своя манера произносить звуки речи (своего рода устный почерк). Произношение звуков речи зависит, например, от ударения, соседних звуков и других факторов. Физические реализации ограниченного числа обобщенных звуков речи называются фонемами. Фонема - это то, что человек хочет произнести, а звук речи — это то, что человек фактически произносит. Фонема по отношению к звуку речи играет ту же роль, что и образцовая буква, называемая графемой (например, печатная курсивом) по ношению к ее рукописной форме в конкретном написании.
В русском языке насчитываются 41 основная и 3 неясно звучащих фонемы: 6 гласных (а, о, у, э, и, ы), 1 полугласная (й) и 34 согласных. Гласные буквы я, ю, ё, е соответствуют или составным фонемам: йа, йу, йо, йэ, или служат для смягчения предыдущей согласной. Согласных фонем больше, чем согласных букв, так; как ряд согласных букв соответствует двум фонемам: мягкой и твердой. Только твердых фонем 3 (ш, ж, ц), только мягких - 1 (ч). Остальные 15 существуют в обоих видах: твердом и мягком.
Звуки речи делят на звонкие и глухие. Звонкие звуки образуются с участием голосовых связок, в этом случае находящихся в напряжении. Под напором воздуха, идущего из легких, они периодически раздвигаются, в результате чего создается прерывистый поток воздуха. Импульсы потока воздуха, создаваемые голосовыми связками с достаточной точностью, могут считаться периодическими. Соответствующий период повторения импульсов называют периодом основного тона голоса Т0. Обратную величину F0 =1 /Т называют частотой основного тона. Если связки тонкие и сильно напряжены, то период поучается коротким и частота основного тона - высокой; для толстых, слабонапряженных связок частота основного тона низкая. Эта частота для всех голосов лежит в пределах от 70 до 450 Гц. При произнесении речи она непрерывно изменяется в соответствии с ударением и подчеркиванием звуков и слов, а также для проявления эмоций (вопрос, восклицание, удивление и т. д.). Изменение частоты основного тона называют интонацией. У каждого человека свой диапазон изменения частоты основного тона (обычно он бывает немногим более октавы) и своя интонация. Последняя имеет большое значение для узнаваемости говорящего. Основной тон, интонация, устный «почерк» и тембр (окраска) голоса могут служить для опознавания человека. При этом степень, достоверности опознавания выше, чем по отпечаткам пальцев. Это свойство используют в разработанной в последнее время аппаратуре, реагирующей только на определенные голоса.
Импульсы основного тона имеют пилообразную форму, и поэтому при их периодическом повторении получается дискретный спектр с большим числом гармоник (до 40), частоты которых кратны частоте основного тона. Огибающая спектра основного тона имеет спад в сторону высоких частот с крутизной около 6 дБ/окт. Например, для мужского голоса уровень гармоник на частоте 3000 Гц ниже уровня на 100 Гц примерно на 30 дБ.
При произнесении глухих звуков голосовые связки находятся в расслабленном состоянии, и поток воздуха из легких свободно проходит в полость рта. Встречая на своем пути различные преграды в виде языка, зубов, губ, он образует завихрения, создающие шум со сплошным спектром.
По способу образования согласные делят на сонорные, щелевые, взрывные и аффрикаты (комбинация глухих взрывных и щелевых). Сонорные (л, ль, р, рь м, мь, н, нь) по звучанию похожи на гласные, но отдельно не произносятся и поэтому отнесены к согласным. Щелевые (в, вь, з, зь, ж, ф, фь, с, сь, ш, х, ) образуются путем проталкивания потока воздуха в виде импульсов или шума через узкие щели, создаваемые языком и нёбом, губами, зубами, гортанью. Взрывные (п, пь, т, ть, к, кь, б, бь, д, дь, г, гь) образуются путем резкого проталкивания потока воздуха через губы, зубы, гортань. По месту образования фонемы делят на губные, зубные, нёбные, гортанные, передние и задние.
При произнесении звуков речи язык, губы, зубы, нижняя челюсть, голосовые связки должны находиться для каждой фонемы в строго определенном положении или движении. Эти движения называют артикуляцией органов речи. При этом в речеобразующем тракте создаются определенные для данной фонемы резонансные полости, а для слитного звучания фонем в речи - и определенные переходы от одной формы тракта к другой.
Через речевой тракт при произнесении звуков проходят или тональный импульсный сигнал, или шумовой, или тот и другой вместе. Речевой трак представляет собой сложный акустический фильтр с рядом резонансов создаваемых полостями рта, носа и носоглотки, то есть с помощью артикуляционных органов речи. Вследствие этого, тональный или шумовой спектры с монотонной огибающей превращаются в спектры с рядом максимумов и минимумов Максимумы спектра называют формантами, а нулевые значения - антиформантами. Огибающая спектра для каждой фонемы имеет индивидуальную и вполне определенную форму. При произнесении речи спектр ее непрерывно изменяется, в результате чего образуются формантные переходы. Частотный диапазон речи находится в пределах 70...7000 Гц.
Звонкие звуки речи, особенно гласные, имеют высокий уровень интенсивности,
глухие - низкий. В процессе произнесения речи ее громкость непрерывно изменяется, особенно резко при взрывных звуках речи. Динамический диапазон уровней звуков речи находится в пределах 35...45 дБ. Гласные звуки имеют в среднем длительность около
0,15 с, согласные - около 0,08 с, звук «п»- около 30 мс. Большая длительность гласных звуков необходима для перестройки артикуляционных органов, так как иначе язык будет «заплетаться».
Звуки речи неодинаково информативны. Так, гласные звуки содержат меньше смысловой информации, чем глухие (например, в слове «посылка»:
последовательность -О-Ы--А ничего не говорит, в то же время П-С-ЛК- дает почти однозначный ответ о смысле). Поэтому разборчивость речи снижаете! при действии шумов, в первую очередь из-за маскировки глухих звуков.
Известно, что для передачи одного и того же сообщения по телеграфу и по речевому тракту требуется различная пропускная способность тракта: дли телеграфного сообщения не более 100 бит/с, а для речевого - около 100000 бит/с (полоса равна 7000 Гц, динамический диапазон 42 дБ, то есть требуете семизначный код, откуда имеем: 2x7000x7 = 98000 бит/с), то есть в 1000 раз большая.
Может показаться, что речевой сигнал имеет огромную избыточность Это неверно и вот почему. Образование звуков речи происходит путем подачи команд к мускулам артикуляционных органов речи от речевого центра мозга Этих сигналов не более десяти, при этом они изменяются медленно (в темпе смены звуков речи, то есть не более десяти раз в секунду). Поэтому общий поток сообщений для них составляет около 100 бит/с.
Резкое увеличение объема речевого сигнала объясняется следующим Речевой сигнал представляет собой спектрально-модулированную несущую* ς= E(ω) F(ω), где - E(ω) спектр импульсов основного тона или шума; F(ω) фильтровая (модуляционная) функция речевого тракта.
В результате спектральной модуляции изменяется соотношение между или составляющими несущей, то есть изменяется форма огибающей ее спектра (появляются форманты и антиформанты). Почти вся информация о спектра заключается в этой спектральной огибающей и ее временном изменении. Эти изменения происходят медленно (в темпе произнесения звуков), поэтому передача сведений об огибающей и ее изменении не требует пропускной способности более 100 бит/с. Но для передачи широкополосной несущей с ее широким динамическим диапазоном требуется очень большая пропускная способность. Кроме того, речевой сигнал при образовании в речевом тракте при обретает много информации, не относящейся к смыслу передаваемой речи (например, фазовую информацию). Эта информация называется сопутствующей Для ее передачи также расходуется пропускная способность тракта. Из этого следует, что избыточность речевого сигнала лишь немного превышает избыточность телеграфного сигнала с таким же сообщением (речевой сигнал отличается от телеграфного лишь информацией об эмоциях и личности говорящего). Для передачи смысла достаточно передавать сведения о форме огибающей спектра речи, а также об изменении основного тона речи и переходов тон-шум.
В идеальном случае вторичный сигнал должен точно воспроизводить первичный, но это не всегда требуется, так как слух человека может и не заметить их несоответствие. К тому же на практике их точное соответствие часто невозможно или очень трудно осуществить. При художественном вещании, телевидении и звукозаписи надо стремиться к этому соответствию в пределах, при которых слуховое ощущение, создающееся у слушателя, было бы близко к тому ощущению, которое он получает, находясь в месте исполнения данной программы при условии достаточно хороших акустических условий. Для информационных программ вещания и телефонной связи этого соответствия добиваются в первую очередь для получения полной понятности речи, а затем для достаточно высокого качества звучания. Только в этом случае необходимо стремиться к более точному соответствию вторичного сигнала первичному. В обоих случаях существенную роль играют экономические соображения.
Нарушение точности передачи, замечаемое слухом, бывает самого разнообразного вида. Рассмотрим основные из них: потерю акустической перспективы смещение уровней, ограничение динамического и частотного диапазона сигнала, помехи, искажения.
Потеря акустической перспективы. При передаче звукового сигнала по одноканальной системе получается ощущение слушания одним ухом, даже при наличии нескольких микрофонов в помещении, откуда ведется передача, и при разнесенных коричных источниках звука. Источник звука для слуха будет всегда казаться находящимся в некотором среднем положении по отношению к фактическим вторичным источникам, поскольку временной сдвиг и разность уровней для обоих ушей слушателя не зависят от местонахождения первичного источника звука. Этот дефект может быть до некоторой степени исправлен с помощью стереофонической системе передачи сигнала.
Смещение уровней. Поскольку по тракту передачи сигналов не передается информация об абсолютных уровнях звучания первичного сигнала то слушатель по своему усмотрению устанавливает уровень вторичного сигнала При этом не всегда можно восстановить нужный уровень первичного сигнала из-за недостаточной мощности аппаратуры на приемном конце, а также из-за условий слушания (например, в квартирах с плохой звукоизоляцией).
Смещение уровней приводит к изменению соотношения между громкостями низкочастотных и среднечастотных составляющих первичного и вторичного сигналов, так как смещение среднего уровня вторичного сигнала вверх отношению к среднему уровню первичного приводит к субъективному повышению громкости низкочастотных составляющих, смещение вниз - к их ослаблению.
Ограничение динамического диапазона. Поскольку динамический диапазон канала ограничен снизу шумами, а сверху - перегрузкой и нелинейностью отдельных звеньев канала передачи, то во избежание искажений его сжимают в начале тракта (во всяком случае, до звена, в котором, скорее всего, может ограничиться или исказиться сигнал). Этот дефект может быть частично исправлен путем расширения динамического диапазона сигнала на конце трата, что не всегда возможно, так как на приемном конце может быть неизвестно. насколько был сжат этот диапазон. Кроме того, попытка расширить диапазон (применением экспандеров) усложняет аппаратуру.
Ограничение частотного диапазона. Поскольку тракт передачи акустических сигналов не пропускает весь их частотный диапазон, говорят об ограничении частотного диапазона.
Помехи. При передаче на сигнал накладываются различного рода помехи, в том числе шумы электрического и акустического происхождения. Последние имеются как в месте нахождения первичного источника звука, так и в месте нахождения слушателя.
Искажения. По сути дела все перечисленные несоответствия первичного и вторичного сигналов являются искажениями в широком смысле этого понятия. Но обычно под этим термином понимают более узкий тип искажений, ним относятся линейные, нелинейные, параметрические и переходные (временные) искажения. Рассмотрим некоторые из искажений более подробно.
Влияние шумов и помех сводится к маскировке вторичного акустического сигнала независимо от их происхождения (акустического или электрического). Шумы сдвигают порог слышимости, который не зависит от времени, шумы относятся к «гладким», то есть имеют пикфактор, не превышающий 6дБ. К этим шумам относятся различные флуктуационные шумы, например шумы дробового эффекта, речевые шумы от нескольких голосов, звучащих одновременно. Импульсные шумы создают порог слышимости, изменяющийся во времени в зависимости от пикфактора шума и длительности импульсов. Из-за инерционности слуха ощущение кратковременных импульсов получается сглаженным: происходит выравнивание временной зависимости порога слышимости Импульсные шумы не только маскируют полезный сигнал, но и искажают его создавая комбинационные частоты шума и сигнала. Получается нечто похожее на взаимную модуляцию сигнала и шума.
Спектр шумов электрического происхождения, как правило, близкий к равномерному, а акустического происхождения — ближе к речевому. Поэтому частотная зависимость порога слышимости для первых имеет тенденцию роста к высоким частотам, так как ширина критических полосок растет с увеличением частоты. Для речевых шумов порог слышимости почти не зависит от частоты.
Индустриальные и атмосферные помехи, кроме тональных, могут быть отнесены и к импульсным, и к гладким, с равномерным или низкочастотным спектром. Кроме этих помех, приходится иногда считаться с помехами от самомаскировки речи, то есть с маскировкой слабых звуков, следующих за громкими. Борьба с акустическими шумами ведется путем устранения (или ослабления) действия источников шума, а также путем повышения звукоизоляции помещений. Учет их действия на прием речевого сигнала делается при расчете и измерении разборчивости речи.
В общем случае коэффициент передачи тракта
(2.8)
где UВХ и UВЫХ - напряжение звукового сигнала в начале и конце тракта; |К| -
модуль коэффициента передачи; ф - фазовый сдвиг в тракте.φ-фазовый сдвиг в тракте
Коэффициент передачи, как правило, зависит от частоты. Так как слух не реагирует непосредственно на сдвиг фаз между составляющими сигнала, в Дальнейшем его не будем рассматривать и под термином «коэффициент передачи» будем подразумевать его модуль.
Частотная зависимость коэффициента передачи, называемая частотной
характеристикой тракта передачи, приводит к изменению соотношений между
амплитудами частотных составляющих, входящих в первичный сигнал. Субъективно эти искажения ощущаются как изменение тембра первичного сигнала.
пример, если подавлены низкочастотные составляющие, то звучание будет звенящим При подавлении высокочастотных составляющих звук становится глухим При резком подчеркивании низкочастотных составляющих звучание получается бубнящим, а при резком подчеркивании высокочастотных – свистящим искажения
(называемые линейными или амплитудно-частотными) оценивают по величине неравномерности частотной характеристики
(2.9)
где К МАКС и К МИН максимальный и минимальный коэффициенты перед заданном диапазоне частот. '
Неравномерность часто измеряют в логарифмических единицах в таком случае:
(2.10)
где Lмакс и L МИН» — максимальный и минимальный уровни вторичного сигнала.
На рис. 2.4 показана одна из характеристик тракта передачи сигнала. При определении неравномерности частотной характеристики следует исключать из рассмотрения пики и провалы в частотной характеристике, если они уже 1/8 октавы. Такое условие введено из-за наличия широких критических полос слуха, а также из-за того, что при быстром изменении первичного сигнала его спектр расширяется, и эти пики и провалы сглаживаются
Рис. 2.3. Определение неравномерности частотной характеристики и частотного диапазона
Как правило, частотная характеристика наиболее неравномерна в областях самых низких и самых высоких частот диапазона, то есть вблизи его границ, поэтому для широкополосных трактов передачи сигнала, например вещательных, неравномерность частотной характеристики часто задают в двух диапазонах: номинальном и в основном (200-=-5000 Гц). В тех случаях, когда аппаратура не может быть изготовлена с заданной неравномерностью, в требуемом частотном диапазоне, оговаривают частотный диапазон, в котором неравномерность не превышает заданную норму.
Амплитудно-частотные искажения обычно устраняют путем частотной коррекции в звеньях тракта, ближайших к искажающим устройствам. Нормы на допустимые частотные искажения были определены экспериментально. Установлено что на низких частотах искажения более заметны, чем на высоких.
Под нелинейными искажениями понимают такие искажения, которые связаны с появлением в воспроизводимом сигнале новых частотных составляющих, которых не было в спектре естественного источника звука. Появление новых частот при нелинейной характеристике устройства можно показать с помощью несложных математических выводов.
Пусть источник звука создает одновременно два колебания с одинаковой амплитудой Um и частотами ω1, и ω2 : u = Um(cosω1t + cosω2t).
Предположим, что амплитудная характеристика устройства описывается выражением у = ах + bх2 .
В этом случае сигнал на выходе определится как:
Из последнего выражения видно, что кроме колебания с основными частотами ω1 и ω2 в сигнале появились новые (паразитные) составляющие:
■ с частотами 2 ω1 и 2 ω2 в два раза больше основных (вторые гармоники);
■ с частотой ω1+ ω2 - суммарный тон;
■ с частотой ω1— ω2 - разностный тон.
Суммарный и разностный тоны называются комбинационными тонами
первого порядка, а появившиеся нелинейные искажения квадратичными. В том
случае, когда уравнение амплитудной характеристики описывается уравнением
у = ах + bх2 + сх3 то появляются комбинационные тоны второго порядка, а нелинейные искажения называются кубичными, так как имеется третья гармоника
Количественно нелинейные искажения чаще всего оцениваются с помощью коэффициента гармоник - отношения корня квадратного из суммы, квадратов эффективных значений напряжений гармоник к эффективному значения напряжения полезного сигнала:
(2.11)
где Umi - амплитуды гармоник сигнала, начиная со второй; Umi - амплитуда основной составляющей.
Метод коэффициента гармоник является наиболее распространенным методом оценки нелинейных искажений, однако, он имеет существенные недостатки. Так, с его помощью трудно измерить нелинейные искажения в высок частотной части звукового диапазона, так как гармонические составляют» выходят за пределы воспроизводимого устройством диапазона частот. Крои того, при некоторых видах нелинейности преобладают не паразитные гармонические составляющие, а комбинационные частоты.
Согласно ГОСТ 22504-77 для оценки нелинейных искажений более целесообразно использование метода разностного тона. При измерении на вход испытуемого устройства подается сумма двух синусоидальных сигналов с одинаковыми амплитудами и некратными частотами f1 и f 2. Разность частот f, -f2 должна быть не менее 80 Гц. На выходе устройства измеряют напряжения на частотах f, и f2 -(Uf1 и Uf2);
f1 — f2 -( Uf2-Uf1); 2f2-f1 и 2f,-f2 -(U2f2-fl и U2fl-f2 )
Затем определяют коэффициент разностного тона второго и третьего порядков
Результаты исследований показали, что слушатель меньше замечает несимметричные искажения*, когда наибольшей по амплитуде оказывается втор* гармоника, так как она находится в октаве с основной частотой. Симметричные искажения более заметны, так как третья гармоника получается очень большой и оказывается в квинте с основной. Именно по этой причине до настоящего времени высококачественные усилители изготавливаются на лампах, а не на транзисторах. При сужении полосы частот заметность искажения уменьшав Это объясняется тем, что ряд гармоник и комбинационных составляющих оказывается за пределами передаваемого диапазона частот
Одной из причин искажений, возникающих в каналах звукового вещания является амплитудное ограничение сигнала. Амплитудное ограничение бывает сверху и снизу (центральное). При ограничении сверху (рис. 2.5, а) характеристика тракта до некоторого значения Х0 может быть линейной. Сигналы с амплитудами больше Х0 ограничиваются. При центральном ограничении (рис. 2.5, б) слабые сигналы (меньше Х0) срезаются, а остальные искажаются.
Искажения, вызванные амплитудным ограничением сверху, мешают восприятию
сигналов меньше, а при центральном ограничении — больше, чем искажения степенного типа. Нелинейные искажения степенного типа в виде гармонических составляющих вызывают ощущения дребезжания (а на высоких частотах - хрипы), а нелинейные искажения в виде разностных тонов вызывают ощущение модуляции громкости звука (обычно это заметно на низких частотах).
ГЛАВА 3. ЦИФРОВОЕ ПРЕДСТАВЛЕНИЕ ЗВУКОВЫХ СИГНАЛОВ
[9,15-16]
3.1. Аналого-цифровое преобразование
Преобразование аналогового звукового сигнала в цифровой включает в себя несколько этапов. Сначала аналоговый звуковой сигнал подается на аналоговый фильтр, который ограничивает полосу частот сигнала и устраняет мехи и шумы. Затем из аналогового сигнала с помощью схемы выборки/хранения выделяются отсчеты: с определенной периодичностью осуществляется запоминание мгновенного уровня аналогового сигнала. Далее отсчеты поступают в аналого-цифровой преобразователь (АЦП), который преобразует мгновенное значение каждого отсчета в цифровой код или числа.
Полученная последовательность бит цифрового кода, собственно, и является звуковым сигналом в цифровой форме. Таким образом, в результате преобразования непрерывный аналоговый звуковой сигнал превращается в цифровой - дискретный как по времени, так и по величине. Отметим, что для защиты от возможных ошибок, а также для согласования с параметрами канала записи в цифровой код может вводиться дополнительная служебная информация. Для примера на рис. 3.1 показана структурная схема канала (тракта) цифровой записи звука.
Рис. 3.1. Обобщенная структурная схема канала цифровой записи звука
Главную роль в процессе преобразования сигнала из аналоговой формы в цифровую играет АЦП (Analog/Digital Converter - ADC). Обратный
процесс-преобразование цифрового звукового сигнала в аналоговый - реализуется с помощью цифро-аналогового преобразователя - ЦАП (Digital/ Analog Converter-DAC)
Рассмотрим подробнее аналого-цифровое преобразование.
Важнейшим этапом аналого-цифрового преобразования является дискретизация аналогового сигнала. Вместо термина «дискретизация» в технической литературе иногда употребляют термин «выборка», а в литературе, посвященной обработке звука используется понятие — «сэмплирование»*.
По определению, дискретизация - это процесс взятия отсчетов непрерывного во времени сигнала в равноотстоящих друг от друга по времени точках. Иными словами, в процессе дискретизации измеряется и запоминается уровень аналогового сигнала. Через заданный интервал времени, который называется интервалом дискретизации, процедура повторяется. Для качественного преобразования аналогового сигнала в цифровой необходимо производить достаточно большое количество отсчетов даже в течение одного периода изменения аналогового сигнала, другими словами, значение частоты дискретизации не может быть произвольным.
И действительно, значение частоты дискретизации фактически определяет ширину полосы частот сигнала, который может быть записан с помощью используемой цифровой системы. Ширина этой полосы не может быть больше половины значения частоты дискретизации, как определяет теорема отсчетов (Котельникова-Найквиста). Эта теорема имеет важнейшее значение в технике записи и передачи звука в цифровой форме. Теорема гласит: сигнал, спектр частот которого занимает область от FMИH до FМАКС (низкочастотный звуковой сигнал), может быть полностью представлен своими дискретными отсчетами с интервалом ТД, если ТД не превышает
Другими словами, частота дискретизации в процессе преобразования должна быть, как минимум, вдвое больше наивысшей частоты звукового сигнала FМАКС.
Почему же именно в два раза? Да потому, что спектр сигнала, т, ванного с помощью АЦП в цифровую форму, имеет периодический характер
В соответствии с теоремой Фурье сигнал любой формы может быть представлен в виде суммы простейших синусоидальных колебаний разной частоты и амплитуды. По окончании аналого-цифрового преобразования звуковой сигнал, представленный в цифровой форме, содержит, кроме низкочастотных соответствующих исходному аналоговому сигналу, еще и высокочастотных компоненты (рис. 3.2). Эти компоненты есть повторение низкочастотного спектра сигнала в виде боковых полос с центрами в точках, кратных частоте дискретизации (fд, 2fд, Зfд, 4fд и т. д.).
Если уменьшить частоту дискретизации, то произойдет наложение (перекрытие) низкочастотной части спектра и боковой полосы с центром в точке Наложение спектров приведет к появлению новых спектральных составляющих сигнале и, следовательно, к невозможности его правильного восстановления
Рис. 3.2. Перекрытие спектров сигнала при дискретизаций
Классическим примером наложения спектров является случай, когда при просмотре кинофильма кажется, что колесо движущейся кареты крутится со скоростью, не соответствующей скорости движения кареты, или даже в обратную сторону. Возникновение этого эффекта обусловлено тем, что скорость смены кадров (частота дискретизации изображения) мала по сравнению с угловой скоростью вращения колеса.
Чтобы при записи звукового сигнала избежать наложения спектров, перед устанавливается фильтр низких частот (ФНЧ), подавляющий все частоты, лежащие выше частоты дискретизации. При этом желательно, чтобы фронты АЧХ этого фильтра были как можно круче.
Если учесть, что человек способен слышать звуковые колебания, частота которых находится в диапазоне от 16...20 Гц до 20 кГц, и с позиций теоремы отсчетов взглянуть на требования к частотным характеристикам высококачественной звукотехники (например, проигрывателей аудио компакт-дисков), становится ясно, что частота дискретизации исходного звукового сигнала должна составлять не менее 40 кГц. Реально для подобных систем частота дискретизации выбирается не менее 44,1 кГц. Стандартное значение частоты дискретизации большинства звуковых карт составляет 44,1 и 48,0 кГц.
Итак, результатом дискретизации является дискретный во времени сигнал, представляющий собой последовательность отсчетов — мгновенных значений уровня аналогового сигнала. Чем выше частота дискретизации, тем более точно будет восстановлен звуковой сигнал.
Процедура дискретизации технически реализуется с помощью устройства выборки/хранения. В качестве запоминающего элемента обычно используют конденсатор, заряжающийся до уровня напряжения входного сигнала. При этом потенциал заряда конденсатора соответствует мгновенному значению напряжения сигнала. Напряжение на конденсаторе сохраняется неизменным в течение некоторого отрезка времени, называемого временем хранения. В идеальном случае взятие отсчета должно происходить мгновенно, реально же длительность этого процесса составляет приблизительно 1 мкс.
После дискретизации происходит второй этап аналого-цифрового
преобразования - квантование отсчетов. В процессе квантования производится измерение мгновенных значений уровня сигнала, полученных в каждом отсчете, причем осуществляется оно с точностью, которая напрямую зависит от количества разрядов, используемых для записи значения уровня.
Если, задав длину N кодового слова, записать значения уровня сигнала с мощью двоичных чисел, то количество возможных значений будет равно 2N. Естественно, что столько же может быть и уровней квантования. Например, если значение амплитуды отсчета представляется 16-разрядным кодовым словом, то максимальное количество градаций уровня сигнала (уровней квантования) будет равно 65536 (216). При 8-разрядном представлении будем иметь 256 (28) градаций уровня.
Необходимая разрядность представления значений отсчетов определяется динамическим диапазоном аналогового сигнала - разностью между уровнями самого сильного сигнала, который устройство в состоянии пропустить, и самого, еще различимого на фоне шумов.
С другой стороны, разрядность АЦП однозначно определяет динамический диапазон цифрового сигнала. Так, при 8-разрядном представлении значений отсчетов динамический диапазон составит 48, а при 16-разрядном -96дБ
Шумы квантования. Преобразование сигнала из аналоговой формы в цифровую можно произвести только с какой-то степенью точности, при этом, чем выше частота дискретизации и разрядность АЦП, тем точнее происходит преобразование.
Искажения сигнала, возникающие в процессе квантования отсчетов кут за собой потерю информации, которую при обратном цифро-аналоговом преобразовании в ходе воспроизведения записанного звукового сигнала ликвидировать или уменьшить практически невозможно
Например, если преобразовать линейно нарастающий по напряжению, аналоговый сигнал, то дискретный и восстановленный сигналы будут различаться на величину напряжения ошибки Uош (рис. 3.3). При записи звука зависимость ошибки от времени гораздо сложнее, а ее спектр подобен спектру белого шума и занимает частотный диапазон от нуля до частоты дискретизации
Рис. 3.3. Ошибки квантования
Появление ошибок квантования при записи звукового сигнала в цифровой форме эквивалентно добавлению к восстановленному сигналу некоторого шума. Поэтому ошибки квантования называются шумом квантования. Шум квантования можно рассматривать и как специфические искажения сигнала особенно заметные при малых его уровнях. Уровень шума квантования обычно измеряется в присутствии сигнала как уровень (в децибелах) относительно максимального значения сигнала. Чем меньше этот уровень, тем выше качества звука. Достижимый уровень шума определяется разрядностью квантования частотой дискретизации
Зависимость между числом двоичных разрядов N и относительным уровнем шума квантования Р для АЦП, работающего в двоичном коде, имеет достаточно простой вид:
Следовательно, для 16-разрядных АЦП и ЦДЛ уровень шума квантования составляет около -98 дБ (6x16+1,8 = 97,8). Такая разрядность используется при записи звука на компакт-диски.
В некоторых случаях допустим более высокий уровень собственного шума цифровой системы. Например, при передаче звукового сопровождения телепрограммы достаточно 12... 13 разрядов для представления звукового сигнала в цифровой форме и, следовательно, уровень шумов квантования может достигать значения от-78 до -72 дБ.
Следует отметить, что, если в исходном аналоговом сигнале уже содержится некоторый шум, то для высококачественной записи/воспроизведения звука разрешающую способность АЦП и ЦАП бессмысленно делать выше разности, соответствующей уровню шума. Данное обстоятельство позволяет установить разумные требования к техническим характеристикам ЦАП, АЦП и ему тракту записи/воспроизведения цифрового звукового сигнала.
Заметим, что характер воздействия шума на качество воспроизводимого сигнала в аналоговом и цифровом трактах звукозаписи принципиально различный В аналоговом тракте помехи суммируются с полезным сигналом, поэтому даже небольшой уровень шума существенно ухудшает качество звукового сигнала. В цифровой системе шум до некоторого, достаточно высокого (порогового) значения (точнее, до тех пор, пока еще удается правильно распознать передаваемое число) вообще не влияет на качество записи.
Затраты памяти на запись звука в цифровой форме. Зная разрядность АЦП, а точнее, количество разрядов, используемых для записи звукового сигнала в цифровой форме, можно получить некоторые интересные цифры.
Например, если умножить число разрядов кодового слова на частоту дискретизации сигнала, выраженную в герцах, то получим скорость передачи данных, которую должен обеспечивать цифровой канал записи/воспроизведения звука. Если теперь полученную скорость передачи данных умножить на общую Длительность звукового сигнала в секундах, получим объем памяти на магнитном носителе, например, на жестком диске, который потребуется для хранения звуковых данных. Как вы понимаете, в случае записи стереосигнала, когда запись идет по двум (левому и правому) стереоканалам, скорость передачи данных необходимый объем памяти удваиваются. Учет подобного рода информации поможет вам правильно оценить свои возможности перед записью на жесткий диск какого-нибудь звукового фрагмента.
Этой процедурой называют представление каждого уровня квантования i уi из
множества { уi }или каждого квантованного значения отсчета S(Qi) из
множества {S(Qi)} соответствующей ему конечной кодовой группой символов, называемой кодовым словом. Если код выбран, и множество его слов есть В, то операция кодирования представляет собой взаимно однозначное отображение {S(Qi)} в множество В. Чаще всего кодирование заключается в замене квантованного отсчета, которое можно рассматривать как некоторое число, его представлением в двоичной системе счисления. Двоичные кодовые слова имеют всего два кодовых символа 0 и 1. Число у в двоичной системе счисления представляется в виде
у = а m-1 2 m – 1+a m – 2 2 m -2 +…+ а 0 2 0,
(3.1)
где m - число разрядов (символов) в кодовом слове; а — число, принимающее значение
0 или 1. Разрядность двоичного кода m (число символов в кодовом слове) ставится в зависимость от количества разрешенных уровней квантована из множества { уi }, которое равно УМАКС. Двоичным m-разрядным кодом можно представить 2m различных кодовых слов и каждому числу из множества { уi } должно соответствовать определенное кодовое слово. Поэтому справедливо выражение
У макс ≤ 2m,
(3.2)
которым пользуются для согласованного выбора пары чисел m и у. Обычно в выражении (3.2) при первичном кодировании принимают знак равенства. Из общего числа элементов множества { уi } половина отводится для передачи мгновенных значений положительных полуволн ЗС, а другая половина - для передачи отрицательных полуволн. Каждая полуволна кодируется m -1 двоичными разрядами.
Кодовая комбинация, соответствующая числу n, содержит передаваемые последовательно символы а m-1, a m-2,…,a 0. Необходимое для кодирования число разрядов при данном максимальном числе уровней шкалы квантования у определяется из выражения m = log2(у MAKC). Если кодовое слово содержит m символов 0 и 1, то с помощью такого m разрядного двоичного кода можно закодировать числа до УМАКС = 2m. Так при m = 7 имеем максимальное число разрешенных уровней квантования, равное УМАКС =128, при m = 8, соответственно, УМАКС = 256, и при m = 16 - УМАКС = 65536.
Двоичные символы 0 и 1, входящие в состав кодовых слов, называю битами. Это слово произошло от английского «bit», составленного из словосочетания «binary digit», что в переводе с английского означает «двоичное число» Биты в кодовом слове имеют разный вес. Наименьший вес имеет младший бит а0, несущий информацию об одном шаге квантования. Старший значащий бит а m-1 несет информацию о 2 m-1 шагах квантования и имеет наибольший вес. Пусть например, кодируется отсчет, имеющий уровень квантования у = 115, а характеристика квантователя имеет максимальное число разрешенных уровней квантования у = 256. В этом случае кодовое слово будет иметь число разрядов m=log2 256 = 8 и кодируемый квантованный отсчет сигнала записывается в двоичной системе следующим образом:
у = 115 = 0·27+1·26+1·25+1·24+0·23+0·22+1·21+1·2°
и соответствующее ему кодовое слово имеет вид 01110011. Такой код называют
натуральным.
В цифровых системах связи и вещания распространены так называемые симметричные коды. Они характеризуются тем, что первый разряд кодового слова определяется полярностью сигнала, а остальные разряды несут информацию об абсолютном значении (модуле) кодируемого отсчета. Если кодируется сигнал положительной полярности, то первым битом кодового слова является 1, а если отрицательной полярности, то - 0. Разнополярные отсчеты, равные по абсолютному значению, в этом случае отличаются только первым символом в кодовом слове.
Обычно при передаче и записи к выходному сигналу АЦП добавляется дополнительная информация, служащая для повышения достоверности передачи и синхронизации. При этом кодовые слова, подвергаемые одновременной обработке, объединяются в блоки. Структура данных кодовых слов и отдельных символов в блоке называется форматом кода.
В цифровой звукотехнике стандартизованы два формата двоичного кодирования положительных и отрицательных чисел. В зарубежной технике в основном используется вариант, называемый 2S Complement format - двоичное Дополнение. В отечественной аппаратуре используется способ, называемый за Рубежом - offset binary (двоичный сдвиг).
В обоих форматах старший разряд является знаковым, при этом значащие положительные значения образуются обычным образом путем перевода десятичных значений в двоичные, а отрицательные значения - из соответствующих положительных путем инверсии значащей части и прибавления 1 в младшем Ряде. Однако есть и различие. В формате двоичного дополнения положительные числа обозначаются нулем - 0 в старшем разряде, а отрицательные -единицей (1); в формате двоичного сдвига - наоборот. Таким образом, переход из одного формата в другой сводится лишь к введению инверсии на знаковый разряд.
Все отечественные АЦП и ЦДЛ выполнены в формате двоичного сдвига, поэтому они не совместимы с импортной цифровой аппаратурой, в которой используется исключительно формат двоичного дополнения.
3.1.4. Передискретизация (оверсэмплинг)
Для того чтобы осуществить аналого-цифровое преобразование с высоким качеством, необходимо выполнить ряд условий.
Прежде всего, при оцифровке звукового сигнала следует использовать как можно более высокую частоту дискретизации: чем выше будет частота дискретизации, тем более качественно, в конечном счете, будет восстановлен исходный сигнал. К сожалению, пропорционально увеличению частоты дискретизации возрастает поток цифровых данных в канале звукозаписи, а также объем памяти, необходимой для хранения звукового сигнала в цифровой форме
Другое условие аналого-цифрового преобразования заключается в том что перед дискретизацией необходимо ограничить спектр входного сигнала с помощью фильтра низкой частоты (ФНЧ). Он должен удалить все гармоники с частотами, лежащими выше частоты дискретизации, и тем самым предотвратить наложение спектров.
Поскольку до АЦП в канале звукозаписи сигнал имеет аналоговую форму, в качестве ФНЧ может быть использован лишь аналоговый фильтр. В свою очередь, аналоговая фильтрация сигнала представляет собой довольно сложную задачу.
Дело в том, что аналоговый ФНЧ подавляет сигналы с частотами, выше некоторой, называемой частотой среза. Подавление плавно усиливается с ростом частоты. Это означает, что аналоговый ФНЧ не может пропустить, например, сигналы всех частот от 0 до 22 кГц и подавить все сигналы с частотой выше 22 кГц. Чтобы добиться отсутствия в звуковом сигнале частот выше 22 кГц, следует устанавливать частоту среза фильтра примерно 16 кГц. Однако в этом случае будут ослаблены не только помехи, но и полезные сигналы из воспринимаемого человеческим ухом диапазона.
Для качественного аналого-цифрового преобразования подавление сигнала ФНЧ на частоте, равной половине частоты дискретизации, должно быть не менее 60 дБ. При этом крутизна АЧХ получается очень высокой. Так, при поло се пропускания 22 кГц и частоте дискретизации 48 кГц подавление сигнала фильтром на частоте 24 кГц должно составить 60 дБ, т. е. на участке 2 кГц коэффициент передачи фильтра должен уменьшиться примерно в 1000 раз
Для достижения этого результата должны использоваться фильтры порядка. Порядок фильтра определяется числом его полюсов. Термин «полюс» взят из теории функций комплексного переменного, используемого для вывода соотношений при расчете частотных характеристик фильтров. Каждый вносит в наклон фронта АЧХ примерно 6 дБ на октаву.
При использовании ФНЧ высокого порядка возрастает необходимое число усилительных каскадов, шумы, другие искажения сигнала. Настройка фильтров высокого порядка трудоемка, в них применяются прецизионные пассивные элементы и высококачественные усилительные схемы.
Но не это главное. Фильтр высокого порядка имеет существенно нелинейную фазовую характеристику, что приводит к искажениям импульсных сигналов Поскольку реальный звуковой сигнал имеет импульсный характер (имеются достаточно резкие перепады уровня: ударные, клавишные, шумоподобные звука), то ФНЧ высокого порядка вносят заметные на слух искажения проявляющиеся в потере «прозрачности» звучания.
В современных АНД проблема фильтрации с целью устранения высокочастотных компонент спектра решается с помощью передискретизации - дискретизации на повышенной частоте. Термину передискретизация в зарубежной хяической литературе соответствует термин оверсэмплинг, который в дальнейшем и будем использовать.
При оверсэмплинге диапазон частот входного аналогового звукового сигнала ограничивается с помощью ФНЧ низкого порядка (обычно 3-5-го), имеющего линейную фазовую характеристику и практически не искажающего импульсный сигнал. Частота среза фильтра выбирается значительно выше частоты полезного сигнала и составляет 25...30 кГц. В результате исключаются фазовые искажения, характерные для аналоговых фильтров высокого порядка, и подавление полезных сигналов высших частот. Отфильтрованный сигнал, имеющий ограниченный по частоте спектр, подвергается дискретизации на повышенной частоте, что исключает наложение и искажение спектра.
Далее дискретные отсчеты сигнала преобразуются в последовательность чисел с помощью АЦП, причем поток цифровых данных включает и нежелательные высокочастотные компоненты спектра.
Полученные цифровые данные подвергаются цифровой фильтрации. Цифровой фильтр высокого порядка с крутым срезом частотной характеристики изготовить гораздо проще. Причем, благодаря линейности фазовой характеристики цифрового фильтра, фазовые искажения сигнала будут отсутствовать. После цифрового фильтра сигнал будет иметь спектр, корректно ограниченный по частоте.
После цифровой фильтрации частота дискретизации сигнала понижается до удвоенного значения наивысшей полезной частотной составляющей путем Удаления «избыточных» отсчетов.
В результате овэрсемплинга нежелательные высокочастотные составляющие будут ликвидированы, в то время как высокочастотные составляющие Годного звукового сигнала будут сохранены.
Другой аспект применения оверсэмплинга - увеличение эффективной рядности АЦП для снижения шумов квантования.
В обычном АЦП число бит на один отсчет выходного цифрового потока данных квантователя равно разрядности выхода АЦП, так как числа с квантователя
поступают непосредственно на выход устройства. Например, для 16-разрядного АЦП с частотой дискретизации 44,1 кГц шум квантования в идеальном случае будет иметь уровень -98 дБ, а спектр шума квантования будет равномерен (постоянен) в диапазоне
0.. .22,05 кГц.
Если АЦП будет дискретизировать сигнал с большей частотой, то полная
мощность шумов квантования останется неизменной, но спектр сигнала к шире (от 0 до новой, большей частоты дискретизации, деленной на 2). Например, если частота дискретизации удваивается (88,2 кГц), то спектр шумов квантования будет простираться уже до 44,1 кГц (вместо 22,05 кГц), в то время как полезный сигнал, как и раньше, будет иметь спектр от 0 до 22,05 кГц. Таким образом, удвоение частоты дискретизации приведет к тому, что спектр шума станет в два раза шире спектра сигнала при прежней мощности шума и, следовательно, мощность шумов квантования «внутри» спектра полезного сигнал упадет вдвое. В результате цифровой фильтрации сигналы в полосе частот 22,05...44,10 кГц, представляющие собой шумы квантования, будут подавлены и отношение сигнал/шум увеличится на 3 дБ. В случае 4-кратного увеличена! частоты дискретизации (четырехкратный оверсэмплинг) отношение сигнал/шум станет выше на 6 дБ.
В настоящее время ведущие производители компонентов звуковой системы PC предлагают АЦП с 128- и даже 256-кратным оверсэмплингом, использование которых увеличивает исходное отношение сигнал/шум на 21.. .24 дБ.
Таким образом, повысить качество цифрового звука и увеличить эффективную разрядность АЦП можно с помощью оверсэмплинга и цифровой фильтрации.
3.2. Цифро-аналоговое преобразование
Для воспроизведения звукового сигнала, записанного в цифровой форме, необходимо преобразовать его в аналоговую форму, то есть осуществить цифро-аналоговое преобразование сигнала (рис. 3.4).
Цифро-аналоговое преобразование производится в два этапа.
На первом этапе из потока цифровых данных с помощью цифро-аналогового
преобразователя выделяют отсчеты сигнала, следующие с частотой дискретизации. На втором этапе из дискретных отсчетов формируется путем сглаживания (интерполяции) непрерывный аналоговый сигнал. Эта операция равносильна фильтрации сигнала идеальным фильтром низкой частоты, который периодические составляющие спектра дискретизированного сигнала.
Как и в АЦП, в ЦАП широко применяется оверсэмплинг, поскольку существует проблема создания восстанавливающих (интерполирующих) аналоговых фильтров.
Сразу после первого этапа цифро-аналогового преобразования сигнал представляет собой серию узких импульсов, имеющих многочисленные высокочастотные спектральные компоненты. На аналоговый фильтр в этом случае возлагается задача полностью пропустить сигнал нужного частотного диапазона (например, 0...24 кГц) и как можно сильнее подавить ненужные высокочастотные компоненты. Аналоговому фильтру выполнить такие противоречивые требования не под силу.
При использовании аналоговых усилителей с ограниченной полосой пропускания и нелинейной передаточной характеристикой, высокочастотные составляющие, содержащиеся в выходном сигнале ЦАП, при недостаточной их фильтрации вызывают заметные на слух интермодуляционные искажения. Поэтому цифровой сигнал сначала интерполируют - вставляют дополнительные отсчеты, вычисленные по специальным алгоритмам, что приводит к увеличению частоты дискретизации без искажения исходного спектра сигнала. Это приводит к тому, что высокочастотные спектральные компоненты на выходе ЦАП далеко отстоят от низкочастотных компонентов звукового сигнала, и, чтобы отфильтровать их, достаточно использовать простой аналоговый фильтр.
В современных ЦАП интерполяция может выполняться нелинейными и линейными методами в сочетании с аналоговой фильтрацией.
Полученный в результате цифро-аналогового преобразования звуковой сигнал, как правило, попадает в микшер и через линейный выход направляется в акустическую систему, в которой колебания напряжения электрического сигнала преобразуются в колебания звукового давления.