Динамический диапазон сжатый или стандартный. Динамическая компрессия. Основные параметры компрессоров

Вторая часть цикла посвящена функциям оптимизации динамического диапазона изображений. В ней мы расскажем, зачем нужны подобные решения, рассмотрим различные варианты их реализации, а также их достоинства и недостатки.

Объять необъятное

В идеале фотоаппарат должен фиксировать изображение окружающего мира таким, каким его воспринимает человек. Однако в силу того, что механизмы «зрения» фотокамеры и человеческого глаза существенно различаются, есть ряд ограничений, не позволяющих выполнить это условие.

Одна из проблем, с которой сталкивались ранее пользователи пленочных фотоаппаратов и сталкиваются сейчас обладатели цифровых, заключается в невозможности адекватно запечатлеть сцены с большим перепадом освещенности без использования специальных приспособлений и/или особых приемов съемки. Особенности зрительного аппарата человека позволяют одинаково хорошо воспринимать детали высококонтрастных сцен как на ярко освещенных, так и на темных участках. К сожалению, сенсор фотоаппарата далеко не всегда способен запечатлеть изображение таким, каким видим его мы.

Чем больше перепад яркостей на фотографируемой сцене, тем выше вероятность потери деталей в светах и/или тенях. В результате вместо голубого неба с пышными облаками на снимке получается лишь белесое пятно, а расположенные в тени объекты превращаются в невнятные темные силуэты или вовсе сливаются с окружающей обстановкой.

В классической фотографии для оценки возможности фотоаппарата (или носителя в случае пленочных камер) передавать определенный диапазон яркостей используется понятие фотографической широты (подробнее см. во врезке). Теоретически фотографическая широта цифровых фотоаппаратов определяется разрядностью аналого-цифрового преобразователя (АЦП). Например, при применении 8-разрядного АЦП с учетом погрешности квантования теоретически достижимое значение фотографической широты составит 7 EV, для 12-разрядного - 11 EV и т.д. Однако в реальных устройствах динамический диапазон изображений оказывается у же теоретического максимума вследствие влияния разного рода шумов и прочих факторов.

Большой перепад уровней яркости представляет собой серьезную
проблему при фотосъемке. В данном случае возможностей фотоаппарата
оказалось недостаточно для адекватной передачи наиболее
светлых областей сцены, и в результате вместо участка голубого
неба (отмечен обводкой) получилась белая «заплатка»

Максимальное значение яркости, которое способен зафиксировать светочувствительный сенсор, определяется уровнем насыщения его ячеек. Минимальное значение зависит от нескольких факторов, в числе которых - величина теплового шума матрицы, шум переноса заряда и погрешность АЦП.

Стоит также отметить, что фотографическая широта одного и того же цифрового фотоаппарата может варьироваться в зависимости от установленного в настройках значения чувствительности. Максимальный динамический диапазон достижим при установке так называемой базовой чувствительности (соответствующей минимальному численному значению из возможных). По мере увеличения значения этого параметра динамический диапазон уменьшается вследствие возрастающего уровня шумов.

Фотографическая широта современных моделей цифровых фотоаппаратов, оснащенных сенсорами большого размера и 14- либо 16-разрядными АЦП, составляет от 9 до 11 EV, что значительно больше по сравнению с аналогичными характеристиками цветных негативных пленок 35-миллиметрового формата (в среднем от 4 до 5 EV). Таким образом, даже относительно недорогие цифровые фотоаппараты обладают фотографической широтой, достаточной для адекватной передачи большинства типичных сюжетов любительской съемки.

Однако существует проблема иного рода. Связана она с ограничениями, налагаемыми существующими стандартами записи цифровых изображений. Используя формат JPEG с разрядностью 8 бит на цветовой канал (который в настоящее время стал фактическим стандартом для записи цифровых изображений в компьютерной индустрии и цифровой технике), даже теоретически нельзя сохранить снимок, имеющий фотографическую широту более 8 EV.

Предположим, что АЦП фотоаппарата позволяет получить изображение разрядностью 12 или 14 бит, содержащее различимые детали как в светах, так и в тенях. Однако если фотографическая широта этого образа превосходит 8 EV, то в процессе преобразования в стандартный 8-битный формат без каких-либо дополнительных действий (то есть просто путем отбрасывания «лишних» разрядов) часть зафиксированной светочувствительным сенсором информации потеряется.

Динамический диапазон и фотографическая широта

Если говорить упрощенно, то динамический диапазон определяется как отношение максимального значения яркости изображения к ее минимальному значению. В классической фотографии традиционно используется термин фотографическая широта, который, по сути, обозначает то же самое.

Ширину динамического диапазона можно выразить в виде отношения (например, 1000:1, 2500:1 и т.п.), однако чаще всего для этого используется логарифмическая шкала. В этом случае вычисляется значение десятичного логарифма отношения максимальной яркости к ее минимальной величине, а после числа ставится прописная буква D (от англ. density?- плотность), реже?- аббревиатура OD (от англ. optical density?- оптическая плотность). Например, если отношение максимальной величины яркости к минимальному значению какого-либо устройства составляет 1000:1, то динамический диапазон будет равен 3,0 D:

Для измерения фотографической широты традиционно используются так называемые единицы экспозиции, обозначаемые аббревиатурой EV (от англ. exposure values; профессионалы зачастую именуют их «стопами» или «ступенями»). Именно в этих единицах обычно задается величина коррекции экспозиции в настройках фотоаппарата. Увеличение значения фотографической широты на 1 EV эквивалентно удвоению разницы между максимальным и минимальным уровнями яркости. Таким образом, шкала EV также является логарифмической, но для расчета численных значений в данном случае применяется логарифм с основанием 2. Например, если какое-либо устройство обеспечивает возможность фиксации изображений, отношение максимальной величины яркости к минимальному значению которых достигает 256:1, то его фотографическая широта составит 8 EV:

Сжатие - разумный компромисс

Наиболее эффективным способом сохранить в полном объеме информацию об изображении, зафиксированную светочувствительным сенсором камеры, является запись снимков в формате RAW. Однако подобная функция имеется далеко не во всех фотоаппаратах, да и не каждый фотолюбитель готов заниматься кропотливой работой по подбору индивидуальных настроек для каждого сделанного снимка.

Чтобы снизить вероятность потери деталей высококонтрастных снимков, преобразуемых внутри камеры в 8-битный JPEG, в аппаратах многих производителей (причем не только компактных, но и зеркальных) были внедрены специальные функции, позволяющие без вмешательства пользователя сжимать динамический диапазон сохраняемых изображений. За счет снижения общего контраста и потери незначительной части информации исходного образа подобные решения позволяют сохранить в 8-битном формате JPEG детали в светах и тенях, зафиксированные светочувствительным сенсором аппарата, даже в том случае, если динамический диапазон исходного образа оказался шире 8 EV.

Одним из пионеров в освоении этого направления стала компания НР. В выпущенной в 2003 году цифровой фотокамере HP Photosmart 945 была впервые в мире реализована технология HP Adaptive Lightling, позволяющая автоматически компенсировать недостаток освещенности на темных областях снимков и таким образом сохранять детали в тенях без риска переэкспонирования (что весьма актуально при съемке высококонтрастных сцен). Алгоритм работы HP Adaptive Lightling основывается на принципах, изложенных английским ученым Эдвином Лэндом (Edwin Land) в теории зрительного восприятия человека RETINEX.

Меню функции HP Adaptive Lighting

Как же работает функция Adaptive Lighting? После получения 12-битного образа снимка из него экстрагируется вспомогательное монохромное изображение, которое фактически представляет собой карту освещенности. При обработке снимка эта карта используется в качестве маски, позволяющей регулировать степень воздействия довольно сложного цифрового фильтра на изображение. Таким образом, на участках, соответствующих наиболее темным точкам карты, воздействие на образ будущего снимка минимально, и наоборот. Такой подход позволяет проявить детали в тенях за счет избирательного осветления этих областей и соответственно снижения общей контрастности результирующего изображения.

Следует отметить, что при включении функции Adaptive Lighting сделанный снимок обрабатывается описанным выше образом перед тем, как готовое изображение будет записано в файл. Все описанные операции выполняются автоматически, а пользователь может лишь выбрать в меню фотоаппарата один из двух режимов работы Adaptive Lighting (низкий либо высокий уровень воздействия) либо отключить эту функцию.

Вообще говоря, многие специфические функции современных цифровых фотоаппаратов (в том числе и рассмотренные в предыдущей статье системы распознавания лиц) являются своего рода побочными либо конверсионными продуктами научно-исследовательских работ, которые изначально выполнялись для военных заказчиков. Что касается функций оптимизации динамического диапазона изображений, то одним из наиболее известных поставщиков подобных решений является компания Apical. Созданные ее сотрудниками алгоритмы, в частности, лежат в основе работы функции SAT (Shadow Adjustment Technology - технология коррекции теней), реализованной в ряде моделей цифровых фотоаппаратов Olympus. Вкратце работу функции SAT можно описать следующим образом: на основе исходного образа снимка создается маска, соответствующая наиболее темным участкам, и затем для этих областей производится автоматическая коррекция величины экспозиции.

Лицензию на право использования разработок Apical приобрела и компания Sony. Во многих моделях компактных фотоаппаратов серии Cyber-shot и в зеркальных камерах серии «альфа» реализована так называемая функция оптимизации динамического диапазона (Dynamic Range Optimizer, DRO).

Фотоснимки, сделанные камерой НР Photosmart R927 с отключенной (вверху)
и активированной функцией Adaptive Lighting

Коррекция снимка при активации DRO выполняется в процессе первичной обработки изображения (то есть до записи готового файла формата JPEG). В базовом варианте DRO имеет двухступенчатую настройку (в меню можно выбрать стандартный либо расширенный режим ее работы). При выборе стандартного режима на основе анализа образа снимка производится коррекция величины экспозиции, а затем к изображению применяется тоновая кривая для выравнивания общего баланса. В расширенном режиме используется более сложный алгоритм, позволяющий производить коррекцию как в тенях, так и в светах.

Разработчики Sony постоянно работают над усовершенствованием алгоритма работы DRO. Например, в зеркальной фотокамере а700 при активации продвинутого режима DRO предусмотрена возможность выбора одного из пяти вариантов коррекции. Кроме того, реализована возможность сохранения сразу трех вариантов одного снимка (своего рода брекетинг) с различными вариантами настроек DRO.

Во многих моделях цифровых фотоаппаратов компании Nikon имеется функция D-Lighting, в основе которой также использованы алгоритмы Apical. Правда, в отличие от описанных выше решений, D-Lighting реализована в виде фильтра для обработки ранее сохраненных снимков посредством тональной кривой, форма которой позволяет сделать тени более светлыми, сохраняя в неизменном виде остальные участки изображения. Но поскольку в этом случае обработке подвергаются уже готовые 8-битные изображения (а не исходный образ кадра, имеющий более высокую разрядность и соответственно более широкий динамический диапазон), то возможности D-Lighting весьма ограниченны. Получить такой же результат пользователь может путем обработки снимка в графическом редакторе.

При сравнении увеличенных фрагментов хорошо заметно, что темные участки исходного снимка (слева)
при включении функции Adaptive Lighting стали светлее

Существует и ряд решений, базирующихся на иных принципах. Так, во многих фотоаппаратах семейства Lumix компании Panasonic (в частности, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 и др.) реализована функция распознавания освещенности (Intelligent Exposure), которая является составной частью системы интеллектуального автоматического управления съемкой iA. Работа функции Intelligent Exposure основывается на автоматическом анализе образа кадра и коррекции темных участков снимка во избежание потери деталей в тенях, а также (при необходимости) сжатия динамического диапазона высококонтрастных сцен.

В ряде случаев работа функции оптимизации динамического диапазона предусматривает не только определенные операции по обработке исходного образа снимка, но и коррекцию настроек съемки. Например, в новых моделях цифровых фотоаппаратов Fujifilm (в частности, в FinePix S100FS) реализована функция расширения динамического диапазона (Wide Dynamic Range, WDR), позволяющая, по данным разработчиков, увеличить фотографическую широту на одну или две ступени (в терминологии настроек - 200 и 400%).

При активации функции WDR камера делает снимки с экспокоррекцией –1 или –2 EV (в зависимости от выбранной настройки). Таким образом, образ кадра получается недодержанным - это необходимо для того, чтобы сохранить максимум информации о деталях в светах. Затем полученный образ обрабатывается при помощи тоновой кривой, что позволяет выровнять общий баланс и скорректировать уровень черного. После этого изображение преобразовывается в 8-битный формат и записывается в виде файла JPEG.

Сжатие динамического диапазона позволяет сохранить больше деталей
в светах и тенях, однако неизбежным следствием такого воздействия
является снижение общей контрастности. На нижнем изображении
гораздо лучше проработана фактура облаков, однако
из-за более низкого контраста этот вариант снимка
выглядит менее естественно

Схожая функция под названием Dynamic Range Enlargement реализована в ряде компактных и зеркальных фотоаппаратов компании Pentax (Optio S12, K200D и др.). По данным производителя, применение функции Dynamic Range Enlargement позволяет увеличить фотографическую широту снимков на 1 EV без потери деталей в светах и тенях.

Действующая подобным образом функция под названием Highlight tone priority (HTP) реализована в ряде зеркальных моделей компании Canon (EOS 40D, EOS 450D и др.). Согласно информации, приведенной в руководстве пользователя, активация HTP позволяет улучшить проработку деталей в светах (а точнее, в диапазоне уровней от 0 до 18% серого).

Заключение

Подведем итоги. Встроенная функция сжатия динамического диапазона позволяет с минимальным ущербом преобразовать исходное изображение с большим динамическим диапазоном в 8-битный файл JPEG. При отсутствии функции сохранения кадров в формате RAW режим сжатия динамического диапазона дает фотографу возможность более полно использовать потенциал своей камеры при съемке высококонтрастных сцен.

Разумеется, необходимо помнить о том, что сжатие динамического диапазона - это не чудодейственное средство, а скорее компромисс. За сохранение деталей в светах и/или тенях приходится расплачиваться увеличением уровня шума на темных участках снимка, снижением его контрастности и некоторым огрублением плавных тональных переходов.

Как и любая автоматическая функция, алгоритм сжатия динамического диапазона не является в полной мере универсальным решением, позволяющим улучшить абсолютно любой снимок. А следовательно, активировать его имеет смысл только в тех случаях, когда он действительно необходим. Например для того, чтобы снять силуэт c хорошо проработанным фоном, функцию сжатия динамического диапазона необходимо отключить - в противном случае эффектный сюжет будет безнадежно испорчен.

Завершая рассмотрение данной темы, необходимо отметить, что применение функций сжатия динамического диапазона не позволяет «вытянуть» на результирующем изображении детали, которые не были зафиксированы сенсором фотоаппарата. Для получения удовлетворительного результата при съемке высококонтрастных сюжетов необходимо использовать дополнительные приспособления (например, градиентные фильтры для фотографирования пейзажей) или специальные приемы (такие как съемка нескольких кадров с брекетингом по экспозиции и дальнейшее объединение их в одно изображение с применением технологии Tone Mapping).

Следующая статья будет посвящена функции серийной съемки.

Продолжение следует

Во времена, когда исследователи только приступали к решению проблемы создания речевого интерфейса для компьютеров, им зачастую приходилось самостоятельно изготавливать аппаратуру, позволяющую вводить в компьютер звуковую информацию, а также выводить ее из компьютера. Сегодня такие устройства могут иметь разве лишь исторический интерес, так как современные компьютеры можно легко оснастить устройствами ввода и вывода звука, такими как звуковые адаптеры, микрофоны, головные телефоны и звуковые колонки.

Мы не будем углубляться в детали внутреннего устройства этих приспособлений, но расскажем о том, как они работают, и приведем некоторые рекомендации по выбору звуковых компьютерных приспособлений для работы с системами распознавания и синтеза речи.

Как мы уже говорили в предыдущей главе, звук представляет собой ни что иное, как колебания воздуха, частота которых лежит в диапазоне частот, воспринимаемых человеком. У разных людей точные границы диапазона слышимых частот могут изменяться, однако считается, что звуковые колебания лежат в диапазоне 16-20 000 Гц.

Задача микрофона заключается в преобразовании звуковых колебаний в электрические колебания, которые в дальнейшем могут быть усилены, отфильтрованы для удаления помех и оцифрованы для ввода звуковой информации в компьютер.

По принципу действия наиболее распространенные микрофоны делятся на угольные, электродинамические, конденсаторные и электретные. Некоторые их этих микрофонов для своей работы требуют внешнего источника тока (например, угольные и конденсаторные), другие под воздействием звуковых колебаний способны самостоятельно вырабатывать переменное электрическое напряжение (это электродинамические и электретные микрофоны).

Можно также разделить микрофоны по назначению. Есть студийные микрофоны, которые можно держать в руке или закрепить на подставке, есть радиомикрофоны, которые можно закрепить на одежде, и так далее.

Имеются также микрофоны, предназначенные специально для компьютеров. Такие микрофоны обычно крепятся на подставке, стоящей на поверхности стола. Компьютерные микрофоны могут комбинироваться с головными телефонами, как это показано на рис. 2-1.

Рис. 2-1. Головные телефоны с микрофоном

Как же выбрать из всего многообразия микрофонов тот, что лучше всего подходит для систем распознавания речи?

В принципе, Вы можете экспериментировать с любым имеющимся у Вас микрофоном, если только его можно подключить к звуковому адаптеру компьютера. Однако разработчики систем распознавания речи рекомендуют приобрести такой микрофон, который при работе будет находиться на постоянном расстоянии ото рта говорящего.

Если расстояние между микрофоном и ртом не изменяется, то средний уровень электрического сигнала, поступающего от микрофона, также будет меняться не слишком сильно. Это окажет положительное влияние на качество работы современных систем распознавания речи.

В чем тут проблема?

Человек способен успешно распознавать речь, громкость которой меняется в очень широких пределах. Мозг человека способен отфильтровывать тихую речь от помех, таких, например, как шум машин, проезжающих по улице, посторонние разговоры и музыку.

Что же касается современных систем распознавания речи, то их способности в этой области оставляют желать лучшего. Если микрофон стоит на столе, то при повороте головы или изменении положения тела расстояние между ртом и микрофоном будет изменяться. Это приведет к изменению уровня выходного сигнала микрофона, что, в свою очередь, ухудшит надежность распознавания речи.

Поэтому при работе с системами распознавания речи наилучшие результаты будут достигнуты, если использовать микрофон, прикрепленный к головным телефонам, как это показано на рис. 2-1. При использовании такого микрофона расстояние между ртом и микрофоном будет постоянным.

Обращаем также Ваше внимание, что все эксперименты с системами распознавания речи лучше всего проводить, уединившись в тихой комнате. В этом случае влияние помех будет минимально. Разумеется, если Вам нужно выбрать систему распознавания речи, способную работать в условиях сильных помех, то испытания нужно проводить по-другому. Однако, насколько это известно авторам книги, пока помехозащищенность систем распознавания речи еще очень и очень низка.

Микрофон выполняет для нас преобразование звуковых колебаний в колебания электрического тока. Эти колебания можно увидеть на экране осциллографа, однако не спешите в магазин, чтобы приобрести это дорогостоящее устройство. Все осциллографические исследования мы сможем провести с помощью обычного компьютера, оборудованного звуковым адаптером, например, адаптером Sound Blaster . Позже мы расскажем Вам, как это сделать.

На рис. 2-2 мы показали осциллограмму звукового сигнала, получившуюся при произнесении долгого звука а . Эта осциллограмма была получена с помощью программы GoldWave , о которой мы еще расскажем в этой главе книги, а также с помощью звукового адаптера Sound Blaster и микрофона, аналогичного показанному на рис. 2-1.

Рис. 2-2. Осциллограмма звукового сигнала

Программа GoldWave позволяет растягивать осциллограмму по оси времени, что позволяет разглядеть мельчайшие детали. На рис. 2-3 мы показали растянутый фрагмент упомянутой выше осциллограммы звука а .

Рис. 2-3. Фрагмент осциллограммы звукового сигнала

Обратите внимание, что величина входного сигнала, поступающего от микрофона, изменяется периодически и принимает как положительные, так и отрицательные значения.

Если бы во входном сигнале присутствовала только одна частота (то есть если бы звук был «чистым»), форма сигнала, полученного от микрофона, была бы синусоидальной. Однако, как мы уже говорили, спектр звуков человеческой речи состоит из набора частот, в результате чего форма осциллограммы речевого сигнала далека от синусоидальной.

Сигнал, величина которого изменяется со временем непрерывно, мы будем называть аналоговым сигналом . Именно такой сигнал поступает от микрофона. В отличие от аналогового, цифровой сигнал представляет собой набор числовых значений, изменяющихся со временем дискретно.

Чтобы компьютер мог обработать звуковой сигнал, его необходимо перевести из аналоговой формы в цифровую, то есть представить в виде набора числовых значений. Этот процесс называется оцифровкой аналогового сигнала.

Оцифровка звукового (и любого аналогового) сигнала выполняется с помощью специального устройства, называемого аналогово-цифровой преобразователь АЦП (Analog to Digital Converter , ADC ). Это устройство находится на плате звукового адаптера и представляет собой обычную с вида микросхему.

Как работает аналогово-цифровой преобразователь?

Он периодически измеряет уровень входного сигнала, и выдает на выходе числовое значение результата измерений. Этот процесс иллюстрируется на рис. 2-4. Здесь прямоугольниками серого цвета отмечены значения входного сигнала, измеренные с некоторым постоянным интервалом времени. Набор таких значений и есть оцифрованное представление входного аналогового сигнала.

Рис. 2-4. Измерения зависимости амплитуды сигнала от времени

На рис. 2-5 мы показали подключение аналого-цифрового преобразователя к микрофону. При этом на вход x 1 подается аналоговый сигнал, а с выходов u 1 -u n снимается цифровой сигнал.

Рис. 2-5. Аналого-цифровой преобразователь

Аналого-цифровые преобразователи характеризуются двумя важными параметрами - частотой преобразования и количеством уровней квантования входного сигнала. Правильный выбор этих параметров критически важен для достижения адекватного представления в цифровом виде аналогового сигнала.

Насколько часто нужно измерять значение амплитуды входного аналогового сигнала для того, чтобы в результате оцифровки не была потеряна информация об изменениях входного аналогового сигнала?

Казалось бы, ответ прост - входной сигнал нужно измерять как можно чаще. Действительно, чем чаще аналого-цифровой преобразователь проводит такие измерения, тем лучше будут отслеживаться малейшие изменения амплитуды входного аналогового сигнала.

Однако излишне частые измерения могут привести к неоправданному росту потока цифровых данных и бесполезной трате ресурсов компьютера при обработке сигнала.

К счастью, правильный выбор частоты преобразования (частоты дискретизации) сделать достаточно просто. Для этого достаточно обратиться к теореме Котельникова, известной специалистам в области цифровой обработки сигналов. Теорема гласит, что частота преобразования должна быть в два раза выше максимальной частоты спектра преобразуемого сигнала. Следовательно, для оцифровки без потери качества звукового сигнала, частота которого лежит в диапазоне 16-20 000 Гц, нужно выбрать частоту преобразования, не меньшую, чем 40 000 Гц.

Заметим, однако, что в профессиональной звуковой аппаратуре частота преобразования выбирается в несколько раз большей указанного значения. Это делается для достижения очень высокого качества оцифрованного звука. Для систем распознавания речи такое качество не актуально, поэтому мы не будем заострять на таком выборе Ваше внимание.

А какая частота преобразования нужна для оцифровки звука человеческой речи?

Так как звуки человеческой речи лежать в диапазоне частот 300-4000 Гц, то минимально необходимая частота преобразования составляет 8000 Гц. Однако многие компьютерные программы распознавания речи используют стандартную для обычных звуковых адаптеров частоту преобразования 44 000 Гц. С одной стороны, такая частота преобразования не приводит к чрезмерному увеличению потока цифровых данных, а другой - обеспечивает оцифровку речи с достаточным качеством.

Еще в школе нас учили, что при любых измерениях возникают погрешности, от которых невозможно избавиться полностью. Такие погрешности возникают из-за ограниченной разрешающей способности измерительных приборов, а также из-за того, что сам процесс измерений может внести некоторые изменения в измеряемую величину.

Аналого-цифровой преобразователь представляет входной аналоговый сигнал в виде потока чисел ограниченной разрядности. Обычные звуковые адаптеры содержат 16-разрядные блоки АЦП, способные представлять амплитуду входного сигнала в виде 216 =65536 различных значений. Устройства АЦП в звуковой аппаратуре высокого класса могут быть 20-разрядными, обеспечивая большую точность представления амплитуды звукового сигнала.

Современные системы и программы распознавания речи создавались для обычных компьютеров, оборудованных обычными же звуковыми адаптерами. Поэтому для проведения экспериментов с распознаванием речи Вам не потребуется приобретать профессиональный звуковой адаптер. Такой адаптер, как Sound Blaster , вполне пригоден для оцифровки речи с целью ее дальнейшего распознавания.

Вместе с полезным сигналом в микрофон обычно попадают различные шумы - шум с улицы, шум ветра, посторонние разговоры и т.д. Шум оказывает отрицательное воздействие на качество работы систем распознавания речи, поэтому с ним приходится бороться. Один из способов мы уже упоминали - сегодняшними системами распознавания речи лучше всего пользоваться в тихой комнате, оставаясь с компьютером один на один.

Однако идеальные условия удается создать далеко не всегда, поэтому приходится использовать специальные методы, позволяющие избавиться от помех. Для снижения уровня шума применяются специальные ухищрения при конструировании микрофонов и специальные фильтры, удаляющие из спектра аналогового сигнала частоты, не несущие полезную информацию. Кроме того, используется такой прием, как сжатие динамического диапазона уровней входного сигнала.

Расскажем обо всем этом по порядку.

Частотным фильтром называется устройство, преобразующее частотный спектр аналогового сигнала. При этом в процессе преобразования происходит выделение (или поглощение) колебаний тех или иных частот.

Вы можете представить себе это устройство в виде некоего черного ящика с одним входом и одним выходом. Применительно к нашей ситуации, к входу частотного фильтра будет подключен микрофон, а к выходу - аналого-цифровой преобразователь.

Частотные фильтры бывают разные:

· фильтры нижних частот;

· фильтры верхних частот;

· пропускающие полосовые фильтры;

· заграждающие полосовые фильтры.

Фильтры нижних частот (low -pass filter ) удаляют из спектра входного сигнала все частоты, значения которых находятся ниже некоторой пороговой частоты, зависящей от настройки фильтра.

Так как звуковые сигналы лежат в диапазоне 16-20 000 Гц, то все частоты меньше 16 Гц можно отрезать без ухудшения качества звука. Для распознавания речи важен частотный диапазон 300-4000 Гц, поэтому можно вырезать частоты ниже 300 Гц. При этом из входного сигнала будут вырезаны все помехи, частотный спектр которых лежит ниже 300 Гц, и они не будут мешать процессу распознавания речи.

Аналогично, фильтры верхних частот (high -pass filter ) вырезают из спектра входного сигнала все частоты выше некоторой пороговой частоты.

Человек не слышит звуки с частотой 20 000 Гц и выше, поэтому их можно вырезать из спектра без заметного ухудшения качества звука. Что же касается распознавания речи, то здесь можно вырезать все частоты выше 4000 Гц, что приведет к существенному снижению уровня высокочастотных помех.

Пропускающий полосовой фильтр (band -pass filter ) можно представить себе в виде комбинации фильтра нижних и верхних частот. Такой фильтр задерживает все частоты, ниже так называемой нижней частоты пропускания , а также выше верхней частоты пропускания .

Таким образом, для системы распознавания речи удобен пропускающий полосовой фильтр, который задерживает все частоты, кроме частот диапазона 300-4000 Гц.

Что же касается заграждающих полосовых фильтров (band -stop filter ), то они позволяют вырезать из спектра входного сигнала все частоты, лежащие в заданном диапазоне. Такой фильтр удобен, например, для подавления помех, занимающих некоторую сплошную часть спектра сигнала.

На рис. 2-6 мы показали подключение пропускающего полосового фильтра.

Рис. 2-6. Фильтрация звукового сигнала перед оцифровкой

Надо сказать, что обычные звуковые адаптеры, установленные в компьютере, имеют в своем составе полосовой фильтр, через который проходит аналоговый сигнал перед оцифровкой. Полоса пропускания такого фильтра обычно соответствует диапазону звуковых сигналов, а именно 16-20 000 Гц (в разных звуковых адаптерах значения верхней и нижней частоты могут изменяться в небольших пределах).

А как добиться более узкой полосы пропускания 300-4000 Гц, соответствующей наиболее информативной части спектра человеческой речи?

Конечно, если у Вас есть склонности к конструированию радиоэлектронной аппаратуры, Вы можете сделать свой фильтр из микросхемы операционного усилителя, резисторов и конденсаторов . Примерно так и поступали первые создатели систем распознавания речи.

Однако промышленные системы распознавания речи должны быть работоспособны на стандартном компьютерном оборудовании, поэтому путь изготовления специального полосового фильтра тут не подходит.

Вместо этого в современных системах обработки речи используются так называемые цифровые частотные фильтры , реализованные программно. Это стало возможным, после того как центральный процессор компьютера стал достаточно мощным.

Цифровой частотный фильтр, реализованный программно, преобразует входной цифровой сигнал в выходной цифровой сигнал. В процессе преобразования программа обрабатывает специальным образом поток числовых значений амплитуды сигнала, поступающий от аналого-цифрового преобразователя. Результатом преобразования при этом также будет поток чисел, однако этот поток будет соответствовать уже отфильтрованному сигналу.

Рассказывая об аналогово-цифровом преобразователе, мы отметили такую его важную характеристику, как количество уровней квантования. Если в звуковом адаптере установлен 16-разрядный аналого-цифровой преобразователь, то после оцифровки уровни звукового сигнала могут быть представлены в виде 216 =65536 различных значений.

Если уровней квантования мало, то возникает так называемый шум квантования . Чтобы уменьшить этот шум, в высококачественных системах оцифровки звука следует применять аналого-цифровые преобразователи с максимально доступным количеством уровней квантования.

Однако есть еще один прием, позволяющий снизить влияние шума квантования на качество звукового сигнала, который используется в цифровых системах записи звука. При использовании этого приема перед оцифровкой сигнал пропускается через нелинейный усилитель, подчеркивающий сигналы с малой амплитудой сигнала. Такое устройство усиливает слабые сигналы сильнее, чем сильные.

Это иллюстрируется графиком зависимости амплитуда выходного сигнала от амплитуды входного сигнала, показанным на рис. 2-7.

Рис. 2-7. Нелинейное усиление перед оцифровкой

На этапе обратного преобразования оцифрованного звука в аналоговый (этот этап мы рассмотрим ниже в этой главе) перед выводом на звуковые колонки аналоговый сигнал снова пропускается через нелинейный усилитель. На этот раз используется другой усилитель, который подчеркивает сигналы с большой амплитудой и имеет передаточную характеристику (зависимость амплитуда выходного сигнала от амплитуды входного сигнала), обратную той, что применялась при оцифровке.

Чем все это может помочь создателям систем распознавания речи?

Человек, как известно, достаточно хорошо распознает речь, произнесенную тихим шепотом или достаточно громким голосом. Можно сказать, что динамический диапазон уровней громкости успешно распознаваемой речи для человека достаточно широк.

Сегодняшние компьютерные системы распознавания речи, к сожалению, пока не могут похвастаться этим. Однако с целью некоторого расширения указанного динамического диапазона перед оцифровкой можно пропустить сигнал от микрофона через нелинейный усилитель, передаточная характеристика которого показана на рис. 2-7. Это позволит снизить уровень шума квантования при оцифровке слабых сигналов.

Разработчики систем распознавания речи, опять же, вынуждены ориентироваться в первую очередь на серийно выпускаемые звуковые адаптеры. В них не предусмотрено описанные выше нелинейное преобразование сигнала.

Тем не менее, можно создать программный эквивалент нелинейного усилителя, преобразующего оцифрованный сигнал перед передачей его модулю распознавания речи. И хотя такой программный усилитель не сможет снизить шум квантования, с его помощью можно подчеркнуть те уровни сигнала, которые несут в себе наибольшую речевую информацию. Например, можно уменьшить амплитуду слабых сигналов, избавив таким способом сигнал от шумов.

, Медиаплееры

Пластинки, особенно старые, которые были записаны и изготовлены до 1982 года, с гораздо меньшей вероятностью подвергались микшированию, во время которого запись бы сделали громче. Они воспроизводят естественную музыку с естественным динамическим диапазоном, который сохраняется на пластинке и теряется у большинства стандартных цифровых форматов или форматов высокого разрешения.

Разумеется, здесь есть исключения – послушайте не так давно вышедший альбом Стивена Уилсона от MA Recordings или Reference Recordings , и вы услышите, насколько хорошим может быть цифровой звук. Но это редкость, большинство современных звукозаписей громкие и сжатые.

Последнее время компрессия музыки подвергается серьезной критике, но я готов спорить, что практически все ваши любимые записи сжаты. Какие-то из них менее, какие-то более, но все равно сжаты. Сжатие динамического диапазона – это своеобразный козел отпущения, которого винят в плохом музыкальном звучании, но сильно сжатая музыка – это не новое веяние: послушайте альбомы Motown 60-х годов. То же самое можно сказать про классические работы Led Zeppelin или более молодые альбомы Wilco и Radiohead. Сжатие динамического диапазона уменьшает естественное соотношение между самым громким и самым тихим звуком на записи, поэтому шепот может быть таким же громким как крик. Довольно проблематично найти поп-музыку последних 50 лет, которая не была подвержена компрессии.

Недавно я мило побеседовал с основателем и редактором журнала Tape Op Ларри Крэйном (Larry Crane) о хороших, плохих и «злых» аспектах сжатия. Ларри Крэйн работал с такими группами и исполнителями как Стефан Маркус, Cat Power, Sleater-Kinney, Дженни Льюис, M. Ward, The Go-Betweens, Джейсон Литтл, Элиот Смит, Quasi и Richmond Fontaine. Он также управляет звукозаписывающей студией Jackpot! в Портленде, Орегон, которая являлась пристанищем для The Breeders, The Decemberists, Эдди Веддера, Pavement, R.E.M., She & Him и еще для многих-многих других.

В качестве примера удивительно неестественно звучащих, но все равно отличных песен, я привожу альбом Spoon «They Want My Soul», вышедший в 2014 году. Крэйн смеется и говорит, что слушает его в машине, поскольку там он отлично звучит. Что приводит нас к еще одному ответу на вопрос, почему музыку сжимают: потому что сжатие и дополнительная «четкость» позволяют лучше её слышать в шумных местах.

Ларри Крэйн за работой. Фото Джейсона Куигли (Jason Quigley)

Когда люди говорят, что им нравится звук аудиозаписи, я считаю, что им нравится музыка, как если бы звук и музыка были неразделимыми терминами. Но для себя я дифференцирую эти понятия. С точки зрения меломана, звук может быть грубым и сырым, но это не будет иметь значения для большинства слушателей.

Многие торопятся обвинять мастеринг-инженеров в злоупотреблении компрессией, однако сжатие применяется непосредственно во время звукозаписи, во время микширования и только потом во время мастеринга. Если вы лично не присутствовали на каждом из этих этапов, то не сможете сказать, как звучали инструменты и вокальная партия в самом начале процесса.

Крэйн был в ударе: «Если музыкант хочет намеренно сделать звук безумным и искаженным как записи Guided by Voices, то в этом нет ничего плохого – желание всегда перевешивает качество звучания». Голос исполнителя практически всегда сжимается, то же самое происходит с басом, барабанами, гитарами и синтезаторами. С помощью компрессии громкость вокала сохраняется на нужном уровне на протяжении всей песни или немного выделяется на фоне остальных звуков.

Правильно выполненное сжатие может сделать звук барабанов более живым или намеренно странным. Чтобы музыка звучала отлично, нужно уметь пользоваться необходимыми для этого инструментами. Вот почему на то, чтобы понять, как пользоваться сжатием и не переусердствовать, уходят годы. Если микс-инженер слишком сильно сжал гитарную партию, то мастеринг-инженер уже не сможет в полной мере восстановить отсутствующие частоты.

Если бы музыканты хотели, чтобы вы слушали музыку, не прошедшую этапы микширования и мастеринга, то выпускали бы её на полки магазинов прямиком из студии. Крэйн говорит, что люди, которые создают, редактируют, микшируют музыкальные записи и проводят их мастеринг, существуют не для того, чтобы путаться под ногами у музыкантов – они помогают исполнителям с самого начала, то есть уже более ста лет.

Эти люди – часть процесса творения, в результате которого получаются удивительные произведения искусства. Крэйн добавляет: «Вам не нужна версия «Dark Side of the Moon», которая не прошла через микширование и мастеринг». Pink Floyd выпустили песню в таком виде, в каком они хотели её слышать.

Компрессия это одна из наиболее опутанных мифами тем саундпродакшна. Говорят, Бетховен даже пугал ей соседских детей:(

Ладно, на самом деле, применять компрессию не сложнее чем пользоваться дисторшном, главное — понимать принцип её работы и иметь хороший контроль . В чём мы сейчас вместе и убедимся.

Что такое компрессия звука

Первое, что стоит уяснить перед препарированием — компрессия это работа с динамическим диапазоном звука . А , в свою очередь, — ни что иное как разница между самым громким и самым тихим уровнем сигнала:

Так вот, компрессия это сжатие динамического диапазона . Да, просто сжатие динамического диапазона, ну или другими словами понижение уровня громких частей сигнала и увеличение громкости тихих . Не более того.

Ты можешь вполне резонно удивиться с чем тогда связан такой хайп? Почему все говорят о рецептах правильной настройки компрессоров, но никто ими не делится? Почему, не смотря на огромное количество классных плагинов , во многих студиях до сих пор используются дорогущие раритетные модели компрессоров? Почему одни продюсеры применяют компрессоры на экстремальных настройках, а другие не используют совсем? И кто из них в конце концов прав?

Задачи, которые решает компрессия

Ответы на подобные вопросы лежат в плоскости понимания роли компрессии в работе со звуком. А она позволяет:

  1. Подчёркивать атаку звука, делать его более выраженным;
  2. «Усаживать» в микс отдельные партии инструментов , добавляя им мощности и «веса»;
  3. Делать группы инструментов или весь микс более цельным , таким единым монолитом;
  4. Решать конфликты между инструментами с помощью sidechain ;
  5. Исправлять огрехи вокалиста или музыкантов , выравнивая их динамику;
  6. При определённой настройке выступать в качестве художественного эффекта .

Как видишь, это не менее значимый творческий процесс чем, скажем, придумывание мелодий или наруливание интересных тембров. При этом любая из вышеперечисленных задач может быть решена с помощью 4-х основных параметров.

Основные параметры компрессора

Не смотря на огромное количество программных и аппаратных моделей компрессоров, вся «магия» компрессии происходит при правильной настройке основных параметров: Threshold, Ratio, Attack и Release. Рассмотрим их подробнее:

Threshold или порог срабатывания, dB

Этот параметр позволяет установить значение, с которого компрессор будет работать (то есть сжимать аудиосигнал). Так, если мы установим в threshold -12dB, компрессор будет срабатывать только в тех местах динамического диапазона, которые превышают это значение. Если весь наш звук тише -12db, компрессор просто пропустит его через себя, никак на него не влияя.

Ratio или коэффициент сжатия

Параметр ratio определяет насколько сильно будет сжиматься сигнал, превышающий threshold. Немного математики для полноты картины: допустим, мы настроили компрессор с threshold -12dB, ratio 2:1 и подали на него барабанный луп , в котором громкость бочки равна -4dB. Каким в этом случае будет результат работы компрессора?

В нашем случае уровень бочки превышает threshold на 8dB. Эта разница в соответствии с ratio будет сжата до 4dB (8dB / 2). В сумме с необработанной частью сигнала это приведёт к тому, что после обработки компрессором громкость бочки составит -8db (threshold -12dB + сжатый сигнал 4dB).

Attack, ms

Это время, спустя которое компрессор будет реагировать на превышение порога срабатывания. То есть, если время атаки выше 0ms — компрессор начинает сжатие превышающего threshold сигнала не мгновенно, а спустя указанное время.

Release или восстановление, ms

Противоположность атаке — значение данного параметра позволяет указать спустя какое время с момента возврата уровня сигнала ниже threshold компрессор прекратит сжатие .

Прежде чем мы двинемся дальше, настоятельно рекомендую взять хорошо знакомый семпл, повесить на его канал любой компрессор и 5-10 минут поэкспериментировать с вышеперечисленными параметрами для надёжного закрепления материала

Все остальные параметры опциональны . Они могут отличаться в разных моделях компрессоров, отчасти поэтому продюсеры и применяют различные модели для каких-либо определённых целей (например, один компрессор для вокала, другой на группу ударных, третий — на мастер-канале). Я не стану подробно останавливаться на этих параметрах, а лишь дам общую информацию для понимания что это вообще такое:

  • Колено или излом (Hard/Soft Knee) . Этот параметр определяет как быстро будет применяться коэффициент сжатия (ratio): жестко по кривой или плавно. Отмечу, что в режиме Soft Knee компрессор срабатывает не прямолинейно, а начинает плавно (насколько это может быть уместно когда мы говорим о миллисекундах) поджимать звук уже перед значением threshold . Для обработки групп каналов и общего микса чаще используется именно soft knee (так как работает незаметно), а для подчёркивания атаки и других особенностей отдельных инструментов — hard knee;
  • Режим реагирования: Peak/RMS . Режим Peak оправдан когда нужно жёстко лимитировать всплески амплитуды, а также на сигналах со сложной формой, динамику и читаемость которых нужно полностью передать. Режим RMS очень бережно влияет на звук, позволяя уплотнить его, сохранив атаку;
  • Предусмотрительность (Lookahead) . Это время, за которое компрессор будет знать что ему предстоит. Своего рода предварительный анализ входящих сигналов;
  • Makeup или Gain . Параметр, позволяющий компенсировать понижение громкости в результате работы компрессии.

Первый и самый главный совет , снимающий все дальнейшие вопросы по компрессии: если ты а) понял принцип действия компрессии, б) твёрдо знаешь как воздействует на звук тот или иной параметр и в) успел на практике попробовать несколько разных моделей — никакие советы тебе уже не нужны .

Я абсолютно серьёзен. Если ты внимательно прочёл эту запись, поэкспериментировал со штатным компрессором твоей DAW и одним-двумя плагинами , но так и не понял в каких случаях нужно устанавливать большие значения атаки, какой коэффициент ratio применять и в каком из режимов обрабатывать исходный сигнал — то так и будешь дальше искать в интернете готовые рецепты, применяя их бездумно куда попало.

Рецепты точной настройки компрессора это примерно как рецепты точной настройки ревербератора или хоруса — лишено какого-либо смысла и не имеет ничего общего с творчеством. Поэтому настойчиво повторяю единственно верный рецепт: вооружись этой статьёй, хорошими мониторными наушниками , плагином для визуального контроля формы волны и проведи вечер в компании с парочкой компрессоров.

Действуй!

Задумаемся над вопросом - а зачем нам поднимать громкость? Для того чтобы слышать тихие звуки, которые не слышны в наших условиях (например, если нельзя слушать громко, если есть посторонние шумы в комнате и т.д.). А можно ли усилить тихие звуки, а громкие не трогать? Оказывается можно. Эта техника называется сжатием динамического диапазона (компрессия, Dynamic Range Compression, DRC). Для этого необходимо изменять текущую громкость постоянно - тихие звуки усиливать, громкие - нет. Самый простой закон изменения громкости - линейный, т.е. громкость изменяется по закону output_loudness = k * input_loudness, где k - коэффициент сжатия динамического диапазона:

Рисунок 18. Сжатие динамического диапазона.

При k = 1 никаких изменений не производится (выходная громкость равна входной). При k < 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k > 1 - громкость будет уменьшаться, а динамический диапазон - увеличиваться.

Посмотрим на графики громкости (k = 1/2: сжатие ДД в два раза):

Рисунок 19. графики громкости.

Как видно в оригинале присутствовали как очень тихие звуки, на 30дБ ниже уровня диалогов, так и очень громкие - на 30дБ выше уровня диалогов. Т.о. динамический диапазон составлял 60дБ. После компрессии громкие звуки всего лишь на 15дБ выше, а тихие - на 15дБ ниже уровня диалогов (динамический диапазон теперь составляет 30дБ). Таким образом, громкие звуки стали значительно тише, а тихие - значительно громче. При этом переполнения не происходит!

Теперь обратимся к гистограммам:

Рисунок 20. Пример компрессии.

Как хорошо видно - при усилении до +30дБ форма гистограммы хорошо сохраняется, что означает, что громкие звуки остаются хорошо выраженными (не уходят в максимум и не обрезаются, как это происходит при простом усилении). При этом выделяются тихие звуки. Гистограмма это показывает плохо, однако разница очень заметна на слух. Недостаток метода - те же самые прыжки громкости. Однако механизм их возникновения отличается от скачков громкости возникающих при обрезании, а их характер отличен - они проявляются в основном при очень сильном усилении тихих звуков (а не при обрезании громких, как при обычном усилении). Чрезмерный уровень компрессии приводит к уплощению звуковой картины - все звуки стремятся к одинаковой громкости и невыразительности.

Сильное усиление тихих звуков может привести к тому, что станут слышны шумы записи. Поэтому в фильтре применен, немного модифицированный алгоритм, чтобы уровень шумов поднимался меньше:

Рисунок 21. Увеличение громкости, без увеличения шума.

Т.е. на уровне громкости -50дБ происходит перегиб передаточной функции, и шумы будут усиливаться меньше (желтая линия). При отсутствии такого перегиба шумы будут значительно громче (серая линия). Такая простая модификация значительно снижает количество шумов даже при очень сильных уровнях сжатия (на рисунке - сжатие 1:5). Уровень “DRC” в фильтре задает уровень усиления для тихих звуков (на уровне -50dB), т.о. уровень компрессии 1/5, показанный на рисунке, соответствует уровню +40дБ в настройках фильтра.