Синтез и распознавание речи. Современные решения

В этой главе мы расскажем о том, как ввести в компьютер звуковую информацию, а также как заставить компьютер издавать звуки. Кроме того, мы приведем практические рекомендации по оснащению Вашей лаборатории, в которой Вы сможете самостоятельно провести некоторые исследования речи, а также опробовать существующие системы синтеза и распознавания речи.

Преобразование звука в поток чисел

Во времена, когда исследователи только приступали к решению проблемы создания речевого интерфейса для компьютеров, им зачастую приходилось самостоятельно изготавливать аппаратуру, позволяющую вводить в компьютер звуковую информацию, а также выводить ее из компьютера. Сегодня такие устройства могут иметь разве лишь исторический интерес, так как современные компьютеры можно легко оснастить устройствами ввода и вывода звука, такими как звуковые адаптеры, микрофоны, головные телефоны и звуковые колонки.

Мы не будем углубляться в детали внутреннего устройства этих приспособлений, но расскажем о том, как они работают, и приведем некоторые рекомендации по выбору звуковых компьютерных приспособлений для работы с системами распознавания и синтеза речи.

Микрофон

Как мы уже говорили в предыдущей главе, звук представляет собой ни что иное, как колебания воздуха, частота которых лежит в диапазоне частот, воспринимаемых человеком. У разных людей точные границы диапазона слышимых частот могут изменяться, однако считается, что звуковые колебания лежат в диапазоне 16-20 000 Гц.

Задача микрофона заключается в преобразовании звуковых колебаний в электрические колебания, которые в дальнейшем могут быть усилены, отфильтрованы для удаления помех и оцифрованы для ввода звуковой информации в компьютер.

По принципу действия наиболее распространенные микрофоны делятся на угольные, электродинамические, конденсаторные и электретные. Некоторые их этих микрофонов для своей работы требуют внешнего источника тока (например, угольные и конденсаторные), другие под воздействием звуковых колебаний способны самостоятельно вырабатывать переменное электрическое напряжение (это электродинамические и электретные микрофоны).

Можно также разделить микрофоны по назначению. Есть студийные микрофоны, которые можно держать в руке или закрепить на подставке, есть радиомикрофоны, которые можно закрепить на одежде, и так далее.

Имеются также микрофоны, предназначенные специально для компьютеров. Такие микрофоны обычно крепятся на подставке, стоящей на поверхности стола. Компьютерные микрофоны могут комбинироваться с головными телефонами, как это показано на рис. 2-1.

Рис. 2-1. Головные телефоны с микрофоном

Как же выбрать из всего многообразия микрофонов тот, что лучше всего подходит для систем распознавания речи?

В принципе, Вы можете экспериментировать с любым имеющимся у Вас микрофоном, если только его можно подключить к звуковому адаптеру компьютера. Однако разработчики систем распознавания речи рекомендуют приобрести такой микрофон, который при работе будет находиться на постоянном расстоянии ото рта говорящего.

Если расстояние между микрофоном и ртом не изменяется, то средний уровень электрического сигнала, поступающего от микрофона, также будет меняться не слишком сильно. Это окажет положительное влияние на качество работы современных систем распознавания речи.

В чем тут проблема?

Человек способен успешно распознавать речь, громкость которой меняется в очень широких пределах. Мозг человека способен отфильтровывать тихую речь от помех, таких, например, как шум машин, проезжающих по улице, посторонние разговоры и музыку.

Что же касается современных систем распознавания речи, то их способности в этой области оставляют желать лучшего. Если микрофон стоит на столе, то при повороте головы или изменении положения тела расстояние между ртом и микрофоном будет изменяться. Это приведет к изменению уровня выходного сигнала микрофона, что, в свою очередь, ухудшит надежность распознавания речи.

Поэтому при работе с системами распознавания речи наилучшие результаты будут достигнуты, если использовать микрофон, прикрепленный к головным телефонам, как это показано на рис. 2-1. При использовании такого микрофона расстояние между ртом и микрофоном будет постоянным.

Обращаем также Ваше внимание, что все эксперименты с системами распознавания речи лучше всего проводить, уединившись в тихой комнате. В этом случае влияние помех будет минимально. Разумеется, если Вам нужно выбрать систему распознавания речи, способную работать в условиях сильных помех, то испытания нужно проводить по-другому. Однако, насколько это известно авторам книги, пока помехозащищенность систем распознавания речи еще очень и очень низка.

Аналого-цифровой преобразователь

Микрофон выполняет для нас преобразование звуковых колебаний в колебания электрического тока. Эти колебания можно увидеть на экране осциллографа, однако не спешите в магазин, чтобы приобрести это дорогостоящее устройство. Все осциллографические исследования мы сможем провести с помощью обычного компьютера, оборудованного звуковым адаптером, например, адаптером Sound Blaster. Позже мы расскажем Вам, как это сделать.

Осциллограмма звукового сигнала

На рис. 2-2 мы показали осциллограмму звукового сигнала, получившуюся при произнесении долгого звука а. Эта осциллограмма была получена с помощью программы GoldWave, о которой мы еще расскажем в этой главе книги, а также с помощью звукового адаптера Sound Blaster и микрофона, аналогичного показанному на рис. 2-1.

Рис. 2-2. Осциллограмма звукового сигнала

Программа GoldWave позволяет растягивать осциллограмму по оси времени, что позволяет разглядеть мельчайшие детали. На рис. 2-3 мы показали растянутый фрагмент упомянутой выше осциллограммы звука а.

Рис. 2-3. Фрагмент осциллограммы звукового сигнала

Обратите внимание, что величина входного сигнала, поступающего от микрофона, изменяется периодически и принимает как положительные, так и отрицательные значения.

Если бы во входном сигнале присутствовала только одна частота (то есть если бы звук был «чистым»), форма сигнала, полученного от микрофона, была бы синусоидальной. Однако, как мы уже говорили, спектр звуков человеческой речи состоит из набора частот, в результате чего форма осциллограммы речевого сигнала далека от синусоидальной.

Аналоговый и цифровой сигнал

Сигнал, величина которого изменяется со временем непрерывно, мы будем называть аналоговым сигналом. Именно такой сигнал поступает от микрофона. В отличие от аналогового, цифровой сигнал представляет собой набор числовых значений, изменяющихся со временем дискретно.

Чтобы компьютер мог обработать звуковой сигнал, его необходимо перевести из аналоговой формы в цифровую, то есть представить в виде набора числовых значений. Этот процесс называется оцифровкой аналогового сигнала.

Оцифровка звукового (и любого аналогового) сигнала выполняется с помощью специального устройства, называемого аналогово-цифровой преобразователь АЦП (Analog to Digital Converter, ADC). Это устройство находится на плате звукового адаптера и представляет собой обычную с вида микросхему.

Как работает аналогово-цифровой преобразователь?

Он периодически измеряет уровень входного сигнала, и выдает на выходе числовое значение результата измерений. Этот процесс иллюстрируется на рис. 2-4. Здесь прямоугольниками серого цвета отмечены значения входного сигнала, измеренные с некоторым постоянным интервалом времени. Набор таких значений и есть оцифрованное представление входного аналогового сигнала.

Рис. 2-4. Измерения зависимости амплитуды сигнала от времени

На рис. 2-5 мы показали подключение аналого-цифрового преобразователя к микрофону. При этом на вход x1 подается аналоговый сигнал, а с выходов u1-un снимается цифровой сигнал.

Рис. 2-5. Аналого-цифровой преобразователь

Аналого-цифровые преобразователи характеризуются двумя важными параметрами — частотой преобразования и количеством уровней квантования входного сигнала. Правильный выбор этих параметров критически важен для достижения адекватного представления в цифровом виде аналогового сигнала.

Выбор частоты преобразования

Насколько часто нужно измерять значение амплитуды входного аналогового сигнала для того, чтобы в результате оцифровки не была потеряна информация об изменениях входного аналогового сигнала?

Казалось бы, ответ прост — входной сигнал нужно измерять как можно чаще. Действительно, чем чаще аналого-цифровой преобразователь проводит такие измерения, тем лучше будут отслеживаться малейшие изменения амплитуды входного аналогового сигнала.

Однако излишне частые измерения могут привести к неоправданному росту потока цифровых данных и бесполезной трате ресурсов компьютера при обработке сигнала.

К счастью, правильный выбор частоты преобразования (частоты дискретизации) сделать достаточно просто. Для этого достаточно обратиться к теореме Котельникова, известной специалистам в области цифровой обработки сигналов. Теорема гласит, что частота преобразования должна быть в два раза выше максимальной частоты спектра преобразуемого сигнала. Следовательно, для оцифровки без потери качества звукового сигнала, частота которого лежит в диапазоне 16-20 000 Гц, нужно выбрать частоту преобразования, не меньшую, чем 40 000 Гц.

Заметим, однако, что в профессиональной звуковой аппаратуре частота преобразования выбирается в несколько раз большей указанного значения. Это делается для достижения очень высокого качества оцифрованного звука. Для систем распознавания речи такое качество не актуально, поэтому мы не будем заострять на таком выборе Ваше внимание.

А какая частота преобразования нужна для оцифровки звука человеческой речи?

Так как звуки человеческой речи лежать в диапазоне частот 300-4000 Гц, то минимально необходимая частота преобразования составляет 8000 Гц. Однако многие компьютерные программы распознавания речи используют стандартную для обычных звуковых адаптеров частоту преобразования 44 000 Гц. С одной стороны, такая частота преобразования не приводит к чрезмерному увеличению потока цифровых данных, а другой — обеспечивает оцифровку речи с достаточным качеством.

Выбор количества уровней квантования

Еще в школе нас учили, что при любых измерениях возникают погрешности, от которых невозможно избавиться полностью. Такие погрешности возникают из-за ограниченной разрешающей способности измерительных приборов, а также из-за того, что сам процесс измерений может внести некоторые изменения в измеряемую величину.

Аналого-цифровой преобразователь представляет входной аналоговый сигнал в виде потока чисел ограниченной разрядности. Обычные звуковые адаптеры содержат 16-разрядные блоки АЦП, способные представлять амплитуду входного сигнала в виде 216=65536 различных значений. Устройства АЦП в звуковой аппаратуре высокого класса могут быть 20-разрядными, обеспечивая большую точность представления амплитуды звукового сигнала.

Современные системы и программы распознавания речи создавались для обычных компьютеров, оборудованных обычными же звуковыми адаптерами. Поэтому для проведения экспериментов с распознаванием речи Вам не потребуется приобретать профессиональный звуковой адаптер. Такой адаптер, как Sound Blaster, вполне пригоден для оцифровки речи с целью ее дальнейшего распознавания.

Фильтрация звукового сигнала

Вместе с полезным сигналом в микрофон обычно попадают различные шумы — шум с улицы, шум ветра, посторонние разговоры и т.д. Шум оказывает отрицательное воздействие на качество работы систем распознавания речи, поэтому с ним приходится бороться. Один из способов мы уже упоминали — сегодняшними системами распознавания речи лучше всего пользоваться в тихой комнате, оставаясь с компьютером один на один.

Однако идеальные условия удается создать далеко не всегда, поэтому приходится использовать специальные методы, позволяющие избавиться от помех. Для снижения уровня шума применяются специальные ухищрения при конструировании микрофонов и специальные фильтры, удаляющие из спектра аналогового сигнала частоты, не несущие полезную информацию. Кроме того, используется такой прием, как сжатие динамического диапазона уровней входного сигнала.

Расскажем обо всем этом по порядку.

Применение частотных фильтров

Частотным фильтром называется устройство, преобразующее частотный спектр аналогового сигнала. При этом в процессе преобразования происходит выделение (или поглощение) колебаний тех или иных частот.

Вы можете представить себе это устройство в виде некоего черного ящика с одним входом и одним выходом. Применительно к нашей ситуации, к входу частотного фильтра будет подключен микрофон, а к выходу — аналого-цифровой преобразователь.

Частотные фильтры бывают разные:

· фильтры нижних частот;

· фильтры верхних частот;

· пропускающие полосовые фильтры;

· заграждающие полосовые фильтры.

Фильтры нижних частот (low-pass filter) удаляют из спектра входного сигнала все частоты, значения которых находятся ниже некоторой пороговой частоты, зависящей от настройки фильтра.

Так как звуковые сигналы лежат в диапазоне 16-20 000 Гц, то все частоты меньше 16 Гц можно отрезать без ухудшения качества звука. Для распознавания речи важен частотный диапазон 300-4000 Гц, поэтому можно вырезать частоты ниже 300 Гц. При этом из входного сигнала будут вырезаны все помехи, частотный спектр которых лежит ниже 300 Гц, и они не будут мешать процессу распознавания речи.

Аналогично, фильтры верхних частот (high-pass filter) вырезают из спектра входного сигнала все частоты выше некоторой пороговой частоты.

Человек не слышит звуки с частотой 20 000 Гц и выше, поэтому их можно вырезать из спектра без заметного ухудшения качества звука. Что же касается распознавания речи, то здесь можно вырезать все частоты выше 4000 Гц, что приведет к существенному снижению уровня высокочастотных помех.

Пропускающий полосовой фильтр (band-pass filter) можно представить себе в виде комбинации фильтра нижних и верхних частот. Такой фильтр задерживает все частоты, ниже так называемой нижней частоты пропускания, а также выше верхней частоты пропускания.

Таким образом, для системы распознавания речи удобен пропускающий полосовой фильтр, который задерживает все частоты, кроме частот диапазона 300-4000 Гц.

Что же касается заграждающих полосовых фильтров (band-stop filter), то они позволяют вырезать из спектра входного сигнала все частоты, лежащие в заданном диапазоне. Такой фильтр удобен, например, для подавления помех, занимающих некоторую сплошную часть спектра сигнала.

На рис. 2-6 мы показали подключение пропускающего полосового фильтра.

Рис. 2-6. Фильтрация звукового сигнала перед оцифровкой

Надо сказать, что обычные звуковые адаптеры, установленные в компьютере, имеют в своем составе полосовой фильтр, через который проходит аналоговый сигнал перед оцифровкой. Полоса пропускания такого фильтра обычно соответствует диапазону звуковых сигналов, а именно 16-20 000 Гц (в разных звуковых адаптерах значения верхней и нижней частоты могут изменяться в небольших пределах).

А как добиться более узкой полосы пропускания 300-4000 Гц, соответствующей наиболее информативной части спектра человеческой речи?

Конечно, если у Вас есть склонности к конструированию радиоэлектронной аппаратуры, Вы можете сделать свой фильтр из микросхемы операционного усилителя, резисторов и конденсаторов [9]. Примерно так и поступали первые создатели систем распознавания речи.

Однако промышленные системы распознавания речи должны быть работоспособны на стандартном компьютерном оборудовании, поэтому путь изготовления специального полосового фильтра тут не подходит.

Вместо этого в современных системах обработки речи используются так называемые цифровые частотные фильтры, реализованные программно. Это стало возможным, после того как центральный процессор компьютера стал достаточно мощным.

Цифровой частотный фильтр, реализованный программно, преобразует входной цифровой сигнал в выходной цифровой сигнал. В процессе преобразования программа обрабатывает специальным образом поток числовых значений амплитуды сигнала, поступающий от аналого-цифрового преобразователя. Результатом преобразования при этом также будет поток чисел, однако этот поток будет соответствовать уже отфильтрованному сигналу.

Сжатие динамического диапазона звукового сигнала

Рассказывая об аналогово-цифровом преобразователе, мы отметили такую его важную характеристику, как количество уровней квантования. Если в звуковом адаптере установлен 16-разрядный аналого-цифровой преобразователь, то после оцифровки уровни звукового сигнала могут быть представлены в виде 216=65536 различных значений.

Если уровней квантования мало, то возникает так называемый шум квантования. Чтобы уменьшить этот шум, в высококачественных системах оцифровки звука следует применять аналого-цифровые преобразователи с максимально доступным количеством уровней квантования.

Однако есть еще один прием, позволяющий снизить влияние шума квантования на качество звукового сигнала, который используется в цифровых системах записи звука. При использовании этого приема перед оцифровкой сигнал пропускается через нелинейный усилитель, подчеркивающий сигналы с малой амплитудой сигнала. Такое устройство усиливает слабые сигналы сильнее, чем сильные.

Это иллюстрируется графиком зависимости амплитуда выходного сигнала от амплитуды входного сигнала, показанным на рис. 2-7.

Рис. 2-7. Нелинейное усиление перед оцифровкой

На этапе обратного преобразования оцифрованного звука в аналоговый (этот этап мы рассмотрим ниже в этой главе) перед выводом на звуковые колонки аналоговый сигнал снова пропускается через нелинейный усилитель. На этот раз используется другой усилитель, который подчеркивает сигналы с большой амплитудой и имеет передаточную характеристику (зависимость амплитуда выходного сигнала от амплитуды входного сигнала), обратную той, что применялась при оцифровке.

Чем все это может помочь создателям систем распознавания речи?

Человек, как известно, достаточно хорошо распознает речь, произнесенную тихим шепотом или достаточно громким голосом. Можно сказать, что динамический диапазон уровней громкости успешно распознаваемой речи для человека достаточно широк.

Сегодняшние компьютерные системы распознавания речи, к сожалению, пока не могут похвастаться этим. Однако с целью некоторого расширения указанного динамического диапазона перед оцифровкой можно пропустить сигнал от микрофона через нелинейный усилитель, передаточная характеристика которого показана на рис. 2-7. Это позволит снизить уровень шума квантования при оцифровке слабых сигналов.

Разработчики систем распознавания речи, опять же, вынуждены ориентироваться в первую очередь на серийно выпускаемые звуковые адаптеры. В них не предусмотрено описанные выше нелинейное преобразование сигнала.

Тем не менее, можно создать программный эквивалент нелинейного усилителя, преобразующего оцифрованный сигнал перед передачей его модулю распознавания речи. И хотя такой программный усилитель не сможет снизить шум квантования, с его помощью можно подчеркнуть те уровни сигнала, которые несут в себе наибольшую речевую информацию. Например, можно уменьшить амплитуду слабых сигналов, избавив таким способом сигнал от шумов.

Преобразование потока чисел в звук

Итак, мы рассмотрели принципы действия устройств, позволяющих преобразовать звуковые колебания воздуха в колебания электрического тока, а затем оцифровать полученный электрический сигнал, превратив его в поток чисел. Проводя аналогию между компьютером и человеком, мы изучили слуховые «органы» компьютера.

Теперь мы займемся речевыми «органами» компьютера, с помощью которых числовой поток может быть преобразован обратно в звуковые колебания воздуха.

Цифро-аналоговый преобразователь

Главный компонент системы преобразования цифрового потока данных в звук находится на плате звукового адаптера, и называется цифро-аналоговым преобразователем ЦАП (Digital to Analog Converter, DAC).

Цифро-аналоговый преобразователь имеет несколько цифровых входов и один аналоговый выход. На цифровые входы подается поток чисел, представляющий собой оцифрованный или синтезированный звук, а к аналоговому выходу через усилитель подключается звуковая колонка или головные телефоны.

Схему подключения цифро-аналогового преобразователя мы показали на рис. 2-8.

Рис. 2-8. Цифро-аналоговый преобразователь

Заметим, что на выходе цифро-аналогового преобразователя формируется последовательность импульсов, амплитуда которых соответствует значениям исходного аналогового сигнала, измеренным при оцифровке. При этом вместо плавной кривой линии, представляющей зависимость амплитуда сигнала от времени мы получим набор прямоугольных импульсов, показанных на рис. 2-9.

Рис. 2-9. Форма сигнала на выходе цифро-аналогового преобразователя

Спектр такого сигнала будет содержать много гармоник, отсутствовавших в исходном аналоговом сигнале.

К чему это может привести?

К тому, что цифровой сигнал, преобразованный в аналоговую форму, будет звучать не так, как исходный оцифрованный звук. Чтобы уменьшить искажения, вызванные цифро-аналоговым преобразованием, используются фильтры высоких частот.

Фильтрация цифрового сигнала

Для сглаживания импульсов, получающихся после цифро-аналогового преобразования, на платах звуковых адаптеров имеются специальные фильтры верхних частот (рис. 2-10). Эти фильтры отрезают все частоты, находящиеся выше диапазона звуковых частот, т.е. выше 20 000 Гц.

Рис. 2-10. Подключение фильтра высоких частот

Благодаря инерционности излучающих систем, головные телефоны и звуковые колонки тоже действуют как фильтры верхних частот. Если звуковая колонка активная и содержит внутри себя усилитель, то этот усилитель может также снабжаться фильтром верхних частот.

На рис. 2-11 мы показали результат работы фильтра верхних частот. Теперь прямоугольные импульсы превратились в кривую линию, форма которой приблизительно соответствует форме исходного сигнала до оцифровки.

Рис. 2-11. Сглаженный сигнал.

При необходимости в программе синтеза речи можно создать программный фильтр верхних частот. Однако на практике в этом нет необходимости, так как для работы вполне достаточно фильтра, предусмотренного в стандартном звуковом адаптере.

Подготовка звуковой аппаратуры

Прежде чем приступить к экспериментам со звуком и речевыми системами, Вам необходимо установить в компьютер звуковой адаптер (если компьютер не оборудован таким адаптером), установить драйвер звукового адаптера, подключить микрофон и головные телефоны, а также отрегулировать чувствительность микрофона.

В этом разделе мы перейдем от теории к практике и выполним все необходимые настройки.

Установка драйверов звукового адаптера

Если Вы покупали компьютер недавно, то, скорее всего, он уже оборудован звуковым адаптером. В противном случае для экспериментов с системами распознавания и синтеза речи мы советуем Вам приобрести не очень дорогой звуковой адаптер, такой, например, как Sound Blaster Live или аналогичный.

При выборе звукового адаптера убедитесь, что его можно вставить в системную шину PCI. Старые звуковые адаптеры, рассчитанные на работу с шиной ISA, приобретать не следует, так как разъемы шины ISA отсутствуют на современных компьютерах.

Если Вы устанавливали операционную систему Microsoft Windows 2000 Professional или Microsoft Windows XP при установленном звуковом адаптере, то, скорее всего, драйвер звукового адаптера уже имеется в системе.

Для проверки откройте панель управления и запустите менеджер устройств. В операционной системе Microsoft Windows 2000 Professional для этого нужно дважды щелкнуть в папке Control Panel значок Administrative Tools, а затем повторить эту операцию для значка Computer Management. В результате на экране появиться окно программы Computer Management, показанное на рис. 2-12.

Рис. 2-12. Проверка установки драйверов звукового адаптера

Щелкните в левой части этого окна значок Device Manager, после чего в правой части окна появится список устройств, установленных на компьютере. Раскройте в этом списке папку Sound, video and game controllers, и поищите пиктограмму с названием Вашего звукового адаптера. На рис. 2-12 видно, что компьютер оборудован звуковым адаптером SoundMAX, интегрированным на системной плате компьютера.

В том случае если звуковой адаптер был добавлен в компьютер уже после установки операционной системы, или если в составе операционной системы не нашлось подходящего драйвера для Вашего звукового адаптера, необходимо добавить драйвер вручную.

Программа установки драйвера должна находится на компакт-диске, который поставляется вместе со звуковым адаптером.

Если такого диска у Вас нет, Вы можете поискать драйвер на Web-сайте компании, выпустившей звуковой адаптер. Кроме того, на этом сайте можно найти более свежую версию драйвера, чем та, что поставляется на компакт-диске. Мы рекомендуем установить самую новую версию драйвера, так как в старых версиях могут содержаться ошибки. Загружая драйвер, правильно укажите тип своего звукового адаптера, а также версию операционной системы Microsoft Windows, установленной на Вашем компьютере.

Подключение микрофона и головных телефонов

Для экспериментов с системами распознавания речи мы настоятельно рекомендуем Вам приобрести комплект из микрофона и головных телефонов, обеспечивающий постоянное расстояние от микрофона до рта говорящего (рис. 2-1).

Подключение такого микрофона, комбинированного с головными телефонами не должно вызывать у Вас никаких затруднений. Все, что нужно сделать, — это вставить штекеры микрофона и головных телефонов в соответствующие разъемы звукового адаптера. При этом нужно не перепутать разъемы и вставить их правильным образом. Руководствуйтесь документацией к Вашему звуковому адаптеру — это позволит избежать ошибок при подключении.

В продаже также есть головные телефоны с микрофоном, предназначенные для подключения к компьютеру при помощи интерфейса USB. Кстати, именно такое оборудование рекомендует компания Microsoft для использования в системе распознавания речи, встроенной в программный пакет Microsoft Office XP.

Приобретая звуковое оборудование, подключаемое через интерфейс USB, поинтересуйтесь у продавца, укомплектовано ли оно драйверами для той версии операционной системы Microsoft Windows, установленной на Вашем компьютере.

Настройка чувствительности микрофона

Успешная работа любой системы распознавания речи из тех, о которых мы расскажем в нашей книге, в значительной степени зависит от правильной настройки чувствительности микрофона. В этом разделе мы расскажем Вам, как выполнить такую настройку.

Прежде всего, убедитесь, что на системной панели задач (system tray) присутствует значок регулировки громкости Volume с изображением громкоговорителя. Такой значок показан в левой части рис. 2-13.

Рис. 2-13. Значок регулировки громкости Volume

Если значка регулировки громкости на системной панели задач нет, то, скорее всего, в операционной системе не установлен драйвер звукового адаптера.

Если же значок регулировки громкости присутствует, то с его помощью можно легко получить доступ к регулировкам чувствительности микрофона. Щелкните этот значок дважды левой клавишей мыши, и на экране появится диалоговое окно регулировки громкости Volume Control, показанное на рис. 2-14.

Рис. 2-14. Диалоговое окно регулировки громкости Volume Control

По умолчанию в этом окне отображаются регулировки, имеющие отношение к устройствам вывода звука, поэтому здесь Вы не найдете регулировок чувствительности микрофона. Для того чтобы получить доступ к этим регулировкам, выберите из меню Options строку Properties. В результате на экране появится одноименное диалоговое окно, показанное на рис. 2-15.

Рис. 2-15. Окно Properties

Обратите внимание на элементы управления группы Adjust volume for. По умолчанию отмечен флажок Playback, в результате чего в окне Volume Control отображаются регулировки устройств вывода звука.

Вам необходимо отметить здесь флажок Recording, а также флажок Microphone, расположенный в списке Show the following volume controls. Сделав эти переключения, щелкните кнопку OK.

Теперь название и внешний вид диалогового окна изменится (рис. 2-16).

Рис. 2-16. Теперь в окне можно регулировать настройки микрофона

Окно получит название Recording Control, и в нем появится интересующая нас группа элементов управления Microphone.

С помощью флажка Select можно включать и отключать тот или иной источник входного сигнала. Для того чтобы сигнал поступал в звуковой адаптер с микрофона, необходимо отметить флажок Select в группе элементов управления Microphone.

После того как флажок будет отмечен, появится возможность регулировать чувствительность микрофона с помощью ползунка Volume. Ползунок регулировки баланса стерео Balance останется недоступным, так как мы используем монофонический микрофон.

В группе элементов управления Microphone может присутствовать кнопка Advanced, открывающая доступ к расширенным настройкам микрофона (для некоторых драйверов кнопка может быть недоступной).

Если щелкнуть кнопку Advanced, на экране появится диалоговое окно Advanced Controls for Microphone, показанное на рис. 2-17.

Рис. 2-17. Диалоговое окно Advanced Controls for Microphone

Состав элементов управления, расположенных в этом окне, и их доступность зависит от драйвера звукового адаптера. Для скачкообразного повышения чувствительности микрофона в некоторых случаях нужно отметить флажок MIC Boost, расположенный в диалоговом окне Advanced Controls for Microphone.

Заметим, что в комплекте с некоторыми звуковыми адаптерами могут поставляться программы управления, позволяющие настраивать параметры адаптера более тонко, чем это можно сделать при помощи диалогового окна Volume Control (или его модификации — диалогового окна Recording Control). Всю информацию о таких программах Вы найдете в документации, поставляющейся вместе со звуковым адаптером.

Пробная запись звука

В составе операционной системы Microsoft Windows имеется приложение Sound Recorder, с помощью которого Вы сможете испытать в работе микрофон и головные телефоны, а также записать фрагменты звуковых сигналов в файлы с расширением имени wav. В дальнейшем такие файлы можно будет проанализировать с помощью других программных средств, о которых мы еще расскажем в нашей книге.

Приложение Sound Recorder

Для продолжения работы по изучению звуковой системы компьютера запустите приложение Sound Recorder. Чтобы это сделать, щелкните кнопку Start, расположенную в нижнем левом углу рабочего стола, а затем выберите из меню папку Programs/Assesories/Entertainment. Именно там находится пиктограмма программы Sound Recorder.

После запуска на экране появится главное окно приложения Sound Recorder, показанное на рис. 2-18.

Рис. 2-18. Приложение Sound Recorder

Запуск записи звука

Для того чтобы запустить запись звука, щелкните кнопку Record, расположенную в правом нижнем углу главного окна приложения Sound Recorder (рис. 2-18). На поверхности этой кнопки нарисован кружок красного цвета.

Теперь говорите в микрофон. По мере произнесения речи, в средней части главного окна приложения Sound Recorder будет отображаться зеленая осциллограмма оцифрованного сигнала (рис. 2-19).

Рис. 2-19. Осциллограмма записываемого сигнала

Если вместо этой осциллограммы Вы наблюдаете только горизонтальную линию зеленого цвета, попробуйте говорить громче или увеличить чувствительностью микрофона. Ранее в разделе «Настройка чувствительности микрофона» мы рассказывали о том, как это сделать.

Остановка записи

Теперь Вам нужно остановить запись, щелкнув кнопку Stop с изображением прямоугольника черного цвета.

Перемотка в начало

Для прослушивания записи необходимо выполнить операцию «перемотки», аналогичную по своему назначению операции перемотки ленты в обычном магнитофоне. Это можно сделать с помощью кнопки Seek to Start с изображением двух треугольников, направленных острием влево.

Вы также можете установить запись в начало с помощью ползунка, расположенного непосредственно над кнопками.

Воспроизведение записанного звука

Теперь давайте посмотрим (а точнее, послушаем), что у нас получилось. Выполнив перемотку записи в начало, запустите ее на воспроизведение, щелкнув кнопку Play. На этой кнопке нарисован треугольник с острием, направленным в правую сторону.

Оцените качество и громкость звука. В идеальном случае при записи Вы должны говорить нормальным голосом. Прослушивая сделанную таким образом запись, необходимо убедиться в ее нормальной громкости, а также в отсутствии шипения и других помех.

Если слышно шипение, попробуйте увеличить чувствительность микрофона. Если же уровень записанного сигнала слишком высок и появляются заметные на слух искажения голоса, попробуйте снизить чувствительность микрофона.

Не забывайте также при этом и про регулировку громкости, которую можно выполнить в окне Volume Control (рис. 2-14). Установка слишком высокого уровня громкости может привести к появлению слышимых шумов. Эти шумы, однако, никак не скажутся на качестве распознавания речи, так как они появляются только в выходных схемах звукового тракта.

Сохранение записи на диске

Чтобы сохранить сделанную запись на диске в файле формата wav, выберите из меню File строку Save As. В результате на экране появится окно сохранения файла записи, показанное на рис. 2-20.

Рис. 2-20. Окно сохранения записи

Как видите, это почти стандартное диалоговое окно сохранения файла, к которому добавлено поле Format, а также кнопка изменения формата записи Change.

В поле Format отображается текущий формат звукового сигнала, частота преобразования аналогового сигнала при оцифровке, а также режим записи — монофонический или стереофонический.

По умолчанию используется формат импульсно-кодовой модуляции (Pulse Code Modulation, PCM). Это формат, при использовании которого в выходной файл будет записан поток чисел, несущих информацию о значениях амплитуды сигнала. Именно такие данные поступают с аналого-цифрового преобразователя, рассмотренного нами в разделе «Аналогово-цифровой преобразователь» этой главы.

Что касается частоты преобразования (частоты дискретизации), то по умолчанию используется значение 22 050 Гц. По теореме Котельникова, этого достаточно для адекватного представления аналогового сигнала с верхней частотой полосы пропускания до 11 000 Гц.

Так как обычный микрофон представляет собой монофоническое устройство, в поле Format находится обозначение Mono.

При сохранении звукового файла на диске Вы можете изменить его формат, щелкнув кнопку Change, расположенную в диалоговом окне сохранения (рис. 2-20). В результате на экране появится диалоговое окно Sound Selection, показанное на рис. 2-21.

Рис. 2-21. Окно выбора формата записи

При помощи списка Format Вы можете выбрать один из доступных форматов хранения звуковой информации. В частности, можно выбрать формат с упаковкой, в результате чего итоговый файл будет иметь меньший размер по сравнению с форматом PCM. Для нас при проведении исследований звука, однако, эта возможность не имеет особого значения, так что оставьте формат PCM, принятый по умолчанию.

Наибольший интерес представляет настройка, выполняемая с помощью списка Attributes. Этот список позволяет изменить частоту дискретизации записанного ранее звукового сигнала.

Заметим, однако, что частоту дискретизации лучше всего менять еще до записи, а не после. В самом деле, если Вы сделали запись с низкой частотой дискретизации, то при ее сохранении с высокой частотой дискретизации никакого улучшения качества не произойдет. Программа просто добавит промежуточные значения амплитуды, выполнив аппроксимацию.

Для тех, кто интересуется созданием собственных программ синтеза и распознавания речи, мы привели в Приложении 1 информацию о внутренней структуре файла wav при использовании импульсно-кодовой модуляции PCM. Информацию о программировании звуковых приложений Вы также найдете в [10].

Ниже мы расскажем о том, как в приложении Sound Recorder можно установить параметры до начала записи.

Настройка параметров записи

Помимо чувствительности и громкости, программа Sound Recorder позволяет настраивать другие параметры, оказывающие влияние на качество записи, в частности, частоту дискретизации.

Выберите из меню File программы Sound Recorder строку Properties. После этого на экране появится окно настройки параметров записи, показанное на рис. 2-22.

Рис. 2-22. Окно настройки параметров записи

Здесь в поле Length отображается длительность записи в секундах, в поле Data Size — размер области данных, в которой хранится звук, а в поле Audio Format — формат записи, о котором мы упоминали в предыдущем разделе.

Чтобы изменить формат записи, щелкните кнопку Convert Now. После этого на экране появится диалоговое окно выбора формата записи, показанное на рис. 2-21.

В этом окне Вы можете выбрать одну из стандартных частот дискретизации:

· 8 000 Гц;

· 11 025 Гц;

· 12 000 Гц;

· 16 000 Гц;

· 22 050 Гц;

· 24 000 Гц;

· 32 000 Гц;

· 44 100 Гц;

· 48 000 Гц.

Как видите, частота дискретизации 8 000 Гц вполне подходит для оцифровки человеческой речи, частотный диапазон которой лежит в пределах 300-4000 Гц.

Помимо частоты дискретизации, можно задать разрядность данных, поступающих от аналого-цифрового преобразователя, равной 8 или 16 бит на одно измерение амплитуды, а также выбрать одноканальный (монофонический) или двухканальный (стереофонический) формат.

Итоги главы

Из этой главы Вы узнали, как происходит преобразование звуковых колебаний воздуха в колебания электрического тока, а затем в поток чисел, удобный для компьютерной обработки.

Мы рассказали Вам о микрофонах — устройствах, предназначенных для улавливания звука и его преобразования в колебания электрического тока. Вы узнали о компьютерных микрофонах, скомбинированных с головными телефонами, а также об основном преимуществе применения именно таких микрофонах. Напомним, что эти микрофоны обеспечивают постоянный уровень звукового сигнала за счет постоянства расстояния между микрофоном и ртом говорящего человека. Именно такие микрофоны рекомендуются для систем распознавания речи.

Вы узнали, что колебания электрического тока от микрофона преобразуются в форму, приемлемую для компьютера (поток чисел) с помощью специального устройства — аналого-цифрового преобразователя.

Ключевыми параметрами аналого-цифрового преобразователя являются количество уровней квантования и частота дискретизации. Согласно теореме Котельникова, частота дискретизации должна быть по крайней мере в два раза выше максимальной частоты спектра преобразуемого сигнала. Так как наиболее информативная часть спектра человеческой речи лежит в диапазоне 300-4000 Гц, то минимально необходимая частота преобразования составляет 8000 Гц.

Для снижения уровня помех используются частотные фильтры, которые делятся на фильтры верхних и нижних частот, на пропускающие и заграждающие полосовые фильтры. Пропускающий полосовой фильтр позволяет вырезать из всего диапазона звуковых частот16-20 000 Гц полосу 300-4000 Гц, важную для работы систем распознавания речи.

Частотные фильтры могут быть реализованы как радиоэлектронные устройства или как программные модули. Программные модули позволяют использовать в системах синтеза и распознавания речи стандартные звуковые адаптеры.

Для снижения помех при малом уровне громкости применяется динамическое сжатие звукового сигнала. Это операция может быть выполнена как с помощью электронного устройства, так и программно, однако в последнем случае невозможно избавиться от шума квантования.

В этой главе мы также рассмотрели цифро-аналоговый преобразователь, с помощью которого поток цифровых данных может быть преобразован в звук. При этом мы указали на необходимость использования фильтра верхних частот для сглаживания импульсов, появляющихся на выходе цифро-аналогового преобразователя.

В практической части главы мы рассказали об установке драйвера звукового адаптера, о подключении микрофона и головных телефонов. Вы научились настраивать чувствительность микрофона и записывать звук в виде wav-файлов, используя для этого приложение Sound Recorder. Мы также познакомили Вас с различными форматами wav-файлов.