Синтез и распознавание речи. Современные решения. Звуковое оборудование компьютера. Пробная запись звука.

Синтез и распознавание речи. Современные решения

Пробная запись звука

В составе операционной системы Microsoft Windows имеется приложение Sound Recorder, с помощью которого Вы сможете испытать в работе микрофон и головные телефоны, а также записать фрагменты звуковых сигналов в файлы с расширением имени wav. В дальнейшем такие файлы можно будет проанализировать с помощью других программных средств, о которых мы еще расскажем в нашей книге.

Приложение Sound Recorder

Для продолжения работы по изучению звуковой системы компьютера запустите приложение Sound Recorder. Чтобы это сделать, щелкните кнопку Start, расположенную в нижнем левом углу рабочего стола, а затем выберите из меню папку Programs/Assesories/Entertainment. Именно там находится пиктограмма программы Sound Recorder.

После запуска на экране появится главное окно приложения Sound Recorder, показанное на рис. 2-18.

Рис. 2-18. Приложение Sound Recorder

Запуск записи звука

Для того чтобы запустить запись звука, щелкните кнопку Record, расположенную в правом нижнем углу главного окна приложения Sound Recorder (рис. 2-18). На поверхности этой кнопки нарисован кружок красного цвета.

Теперь говорите в микрофон. По мере произнесения речи, в средней части главного окна приложения Sound Recorder будет отображаться зеленая осциллограмма оцифрованного сигнала (рис. 2-19).

Рис. 2-19. Осциллограмма записываемого сигнала

Если вместо этой осциллограммы Вы наблюдаете только горизонтальную линию зеленого цвета, попробуйте говорить громче или увеличить чувствительностью микрофона. Ранее в разделе «Настройка чувствительности микрофона» мы рассказывали о том, как это сделать.

Остановка записи

Теперь Вам нужно остановить запись, щелкнув кнопку Stop с изображением прямоугольника черного цвета.

Перемотка в начало

Для прослушивания записи необходимо выполнить операцию «перемотки», аналогичную по своему назначению операции перемотки ленты в обычном магнитофоне. Это можно сделать с помощью кнопки Seek to Start с изображением двух треугольников, направленных острием влево.

Вы также можете установить запись в начало с помощью ползунка, расположенного непосредственно над кнопками.

Воспроизведение записанного звука

Теперь давайте посмотрим (а точнее, послушаем), что у нас получилось. Выполнив перемотку записи в начало, запустите ее на воспроизведение, щелкнув кнопку Play. На этой кнопке нарисован треугольник с острием, направленным в правую сторону.

Оцените качество и громкость звука. В идеальном случае при записи Вы должны говорить нормальным голосом. Прослушивая сделанную таким образом запись, необходимо убедиться в ее нормальной громкости, а также в отсутствии шипения и других помех.

Если слышно шипение, попробуйте увеличить чувствительность микрофона. Если же уровень записанного сигнала слишком высок и появляются заметные на слух искажения голоса, попробуйте снизить чувствительность микрофона.

Не забывайте также при этом и про регулировку громкости, которую можно выполнить в окне Volume Control (рис. 2-14). Установка слишком высокого уровня громкости может привести к появлению слышимых шумов. Эти шумы, однако, никак не скажутся на качестве распознавания речи, так как они появляются только в выходных схемах звукового тракта.

Сохранение записи на диске

Чтобы сохранить сделанную запись на диске в файле формата wav, выберите из меню File строку Save As. В результате на экране появится окно сохранения файла записи, показанное на рис. 2-20.

Рис. 2-20. Окно сохранения записи

Как видите, это почти стандартное диалоговое окно сохранения файла, к которому добавлено поле Format, а также кнопка изменения формата записи Change.

В поле Format отображается текущий формат звукового сигнала, частота преобразования аналогового сигнала при оцифровке, а также режим записи — монофонический или стереофонический.

По умолчанию используется формат импульсно-кодовой модуляции (Pulse Code Modulation, PCM). Это формат, при использовании которого в выходной файл будет записан поток чисел, несущих информацию о значениях амплитуды сигнала. Именно такие данные поступают с аналого-цифрового преобразователя, рассмотренного нами в разделе «Аналогово-цифровой преобразователь» этой главы.

Что касается частоты преобразования (частоты дискретизации), то по умолчанию используется значение 22 050 Гц. По теореме Котельникова, этого достаточно для адекватного представления аналогового сигнала с верхней частотой полосы пропускания до 11 000 Гц.

Так как обычный микрофон представляет собой монофоническое устройство, в поле Format находится обозначение Mono.

При сохранении звукового файла на диске Вы можете изменить его формат, щелкнув кнопку Change, расположенную в диалоговом окне сохранения (рис. 2-20). В результате на экране появится диалоговое окно Sound Selection, показанное на рис. 2-21.

Рис. 2-21. Окно выбора формата записи

При помощи списка Format Вы можете выбрать один из доступных форматов хранения звуковой информации. В частности, можно выбрать формат с упаковкой, в результате чего итоговый файл будет иметь меньший размер по сравнению с форматом PCM. Для нас при проведении исследований звука, однако, эта возможность не имеет особого значения, так что оставьте формат PCM, принятый по умолчанию.

Наибольший интерес представляет настройка, выполняемая с помощью списка Attributes. Этот список позволяет изменить частоту дискретизации записанного ранее звукового сигнала.

Заметим, однако, что частоту дискретизации лучше всего менять еще до записи, а не после. В самом деле, если Вы сделали запись с низкой частотой дискретизации, то при ее сохранении с высокой частотой дискретизации никакого улучшения качества не произойдет. Программа просто добавит промежуточные значения амплитуды, выполнив аппроксимацию.

Для тех, кто интересуется созданием собственных программ синтеза и распознавания речи, мы привели в Приложении 1 информацию о внутренней структуре файла wav при использовании импульсно-кодовой модуляции PCM. Информацию о программировании звуковых приложений Вы также найдете в [10].

Ниже мы расскажем о том, как в приложении Sound Recorder можно установить параметры до начала записи.

Настройка параметров записи

Помимо чувствительности и громкости, программа Sound Recorder позволяет настраивать другие параметры, оказывающие влияние на качество записи, в частности, частоту дискретизации.

Выберите из меню File программы Sound Recorder строку Properties. После этого на экране появится окно настройки параметров записи, показанное на рис. 2-22.

Рис. 2-22. Окно настройки параметров записи

Здесь в поле Length отображается длительность записи в секундах, в поле Data Size — размер области данных, в которой хранится звук, а в поле Audio Format — формат записи, о котором мы упоминали в предыдущем разделе.

Чтобы изменить формат записи, щелкните кнопку Convert Now. После этого на экране появится диалоговое окно выбора формата записи, показанное на рис. 2-21.

В этом окне Вы можете выбрать одну из стандартных частот дискретизации:

· 8 000 Гц;

· 11 025 Гц;

· 12 000 Гц;

· 16 000 Гц;

· 22 050 Гц;

· 24 000 Гц;

· 32 000 Гц;

· 44 100 Гц;

· 48 000 Гц.

Как видите, частота дискретизации 8 000 Гц вполне подходит для оцифровки человеческой речи, частотный диапазон которой лежит в пределах 300-4000 Гц.

Помимо частоты дискретизации, можно задать разрядность данных, поступающих от аналого-цифрового преобразователя, равной 8 или 16 бит на одно измерение амплитуды, а также выбрать одноканальный (монофонический) или двухканальный (стереофонический) формат.