Синтез и распознавание речи. Современные решения. Звуковое оборудование компьютера

Синтез и распознавание речи. Современные решения

Итоги главы

Из этой главы Вы узнали, как происходит преобразование звуковых колебаний воздуха в колебания электрического тока, а затем в поток чисел, удобный для компьютерной обработки.

Мы рассказали Вам о микрофонах — устройствах, предназначенных для улавливания звука и его преобразования в колебания электрического тока. Вы узнали о компьютерных микрофонах, скомбинированных с головными телефонами, а также об основном преимуществе применения именно таких микрофонах. Напомним, что эти микрофоны обеспечивают постоянный уровень звукового сигнала за счет постоянства расстояния между микрофоном и ртом говорящего человека. Именно такие микрофоны рекомендуются для систем распознавания речи.

Вы узнали, что колебания электрического тока от микрофона преобразуются в форму, приемлемую для компьютера (поток чисел) с помощью специального устройства — аналого-цифрового преобразователя.

Ключевыми параметрами аналого-цифрового преобразователя являются количество уровней квантования и частота дискретизации. Согласно теореме Котельникова, частота дискретизации должна быть по крайней мере в два раза выше максимальной частоты спектра преобразуемого сигнала. Так как наиболее информативная часть спектра человеческой речи лежит в диапазоне 300-4000 Гц, то минимально необходимая частота преобразования составляет 8000 Гц.

Для снижения уровня помех используются частотные фильтры, которые делятся на фильтры верхних и нижних частот, на пропускающие и заграждающие полосовые фильтры. Пропускающий полосовой фильтр позволяет вырезать из всего диапазона звуковых частот16-20 000 Гц полосу 300-4000 Гц, важную для работы систем распознавания речи.

Частотные фильтры могут быть реализованы как радиоэлектронные устройства или как программные модули. Программные модули позволяют использовать в системах синтеза и распознавания речи стандартные звуковые адаптеры.

Для снижения помех при малом уровне громкости применяется динамическое сжатие звукового сигнала. Это операция может быть выполнена как с помощью электронного устройства, так и программно, однако в последнем случае невозможно избавиться от шума квантования.

В этой главе мы также рассмотрели цифро-аналоговый преобразователь, с помощью которого поток цифровых данных может быть преобразован в звук. При этом мы указали на необходимость использования фильтра верхних частот для сглаживания импульсов, появляющихся на выходе цифро-аналогового преобразователя.

В практической части главы мы рассказали об установке драйвера звукового адаптера, о подключении микрофона и головных телефонов. Вы научились настраивать чувствительность микрофона и записывать звук в виде wav-файлов, используя для этого приложение Sound Recorder. Мы также познакомили Вас с различными форматами wav-файлов.