Синтез и распознавание речи. Современные решения

После установки звукового адаптера и драйвера для него, а также после регулировки чувствительности микрофона, описанной в предыдущей главе, можно провести собственные небольшие исследования в области распознавания и синтеза речи.

В этой главе мы расскажем о некоторых таких исследованиях, которые Вы сможете провести самостоятельно у себя дома при помощи обычного компьютера и доступного программного обеспечения. Разумеется, эти исследования не могут претендовать на полноту и глубину, однако они дадут Вам некоторое представление о проблеме распознавания речи и возможных путях ее решения.

Осциллографические исследования

Те из Вас, кто когда-либо учился в техническом вузе, знакомы с таким прибором, как осциллограф. Основное назначение этого прибора — визуальное определение формы электрических сигналов и измерение его параметров, таких как амплитуда, частота, длительность импульсов и период их следования и так далее.

Если Ваш компьютер оборудован звуковым адаптером, то при установке специального программного обеспечения Вы сможете использовать его как цифровой осциллограф для изучения электрических колебаний, полученных от микрофона. Таким способом Вы увидите форму звуковых колебаний, образующихся при формировании речи.

Произнося в микрофон отдельные звуки и слова, Вы сможете попытаться разглядеть на осциллограмме отдельные элементы, составляющие речь, проследить изменения амплитуды речевого сигнала и длительности пауз. И хотя информация, полученная в ходе осциллографических исследований, сама по себе не позволит Вам выделить из речи отдельные фонемы и аллофоны, она имеет большое значение для изучения процесса образования речи.

Редактор GoldWave

Для проведения исследований нам, прежде всего, потребуется программное обеспечение, позволяющее просматривать осциллограммы звуковых сигналов. В качестве такого программного обеспечения мы рекомендуем редактор GoldWave (рис. 3-1). Пробную версию этого редактора, работоспособную в течении месяца, можно бесплатно загрузить через Интернет с Web-сайта разработчика http://www.goldwave.com.

Рис. 3-1. Редактор GoldWave

Программа GoldWave может записывать, проигрывать, редактировать и конвертировать звуковые файлы. Эта программа предназначена в первую очередь для создания высококачественных звуковых файлов, но ее с успехом можно использовать и для исследования речи.

В частности, программа снабжена фильтрами (верхних и нижних частот, а также полосовыми частотными фильтрами). В ней имеется анализатор спектра, который можно использовать для исследования речи.

Пользуясь редактором, можно комбинировать отдельные звуки речи, формируя таким способом синтезированную речь (о том, как устроены синтезаторы речи, мы поговорим позже в 7 главе).

Ниже мы рассмотрим основные приемы работы с программой GoldWave. Подробное описание этой программы можно найти в электронной справочной документации, доступной через меню Help.

Запись звука

В предыдущей главе мы рассказывали о записи звуковых файлов с помощью программы Sound Recorder, входящей в комплект операционной системы Microsoft Windows. Надо сказать, что по сравнению с программой GoldWave возможности Sound Recorder весьма и весьма ограничены.

Для того чтобы записать звук в программе GoldWave, запустите эту программу, а затем выберите из меню File строку New.

На экране появится диалоговое окно New Sound, с помощью которого можно выбрать параметры записи (рис. 3-2).

Рис. 3-2. Выбор параметров записи

В группе элементов управления Quick settings предусмотрены кнопки Voice, Radio и CD, при помощи которых можно быстро выбрать параметры звука, соответственно, для записи голоса, радиопередачи или компакт-диска.

Нас интересует запись голоса, поэтому щелкните кнопку Voice. При этом будет создана монофоническая запись (отмечен флажок Mono в группе элементов управления Channels). Также автоматически в списке Sampling rate будет выбрана частота дискретизации входного сигнала, равная 11 025 Гц. Вы можете оставить эту частоту дискретизации, так как она вполне достаточна для оцифровки голоса, либо выбрать при помощи списка Sampling rate другую частоту в диапазоне от 5 500 Гц до 96 000 Гц. Однако не увлекайтесь высокими частотами дискретизации — при обработке речи их применение не даст никакого выигрыша, а приведет лишь к непроизводительным тратам ресурсов компьютера.

При помощи элемента управления Length можно задать длительность записи. Для наших экспериментов достаточно, если запись будет продолжаться одну минуту.

Выбрав параметры записи, щелкните кнопку OK.

Сразу после этого в главном окне программы GoldWave появится новое окно SoundXX, где ХХ — последовательный номер записей с момента запуска программы, а также окно Device Controls.

Первое из этих окон представляет собой окно звукового редактора, где будет показана осциллограмма звукового сигнала. Во втором окне находятся элементы управления для запуска записи и проигрывания звука, а также дополнительные окна просмотра осциллограммы и спектрограммы записанного сигнала.

Рис. 3-3. Запись нового звукового файла

Чтобы начать запись, щелкните в окне Device Controls кнопку Record с красным кружком, держа при этом нажатой клавишу Control. Теперь запись включена, и Вы можете произносить слова в микрофон!

Остановка записи

Чтоб остановить запись звука, щелкните в окне Device Controls кнопку Stop. На этой кнопке нарисован квадрат малинового цвета.

Для временной приостановки записи воспользуйтесь кнопкой Pause с изображением двух вертикальных черточек черного цвета.

Сохранение результатов записи в файле

При изучении речи мы советуем Вам записывать слова и фразы в отдельные wav-файлы небольшого размера. В дальнейшем эти файлы можно будет исследовать программой GoldWave или другими программными средствами.

Для сохранения сделанной записи выберите из меню File строку Save As.

В результате на экране появится диалоговое окно Save As, показанное на рис. 3-4. Обратите внимание на список File Attributes, при помощи которого можно выбрать формат создаваемого файла. Для записи речи можно использовать формат, выбранный по умолчанию.

Рис. 3-4. Сохранение звукового файла

Масштабирование

Осциллограмму звукового сигнала, редактируемого в окне программы GoldWave, можно растягивать и сжимать как по вертикали, так и по горизонтали.

На рис. 3-5 мы показали исходную осциллограмму, полученную при записи одного повествовательного и трех вопросительных предложений. Вот эти предложения:

· Мама мыла раму.

· `[Мама] мыла раму?

· Мама `[мыла] раму?

· Мама мыла `[раму]?

Квадратными скобками отмечены слова, выделенные интонацией при произнесении предложений.

Рис. 3-5. Исходная осциллограмма

Чтобы лучше разглядеть эту осциллограмму, Вы можете растянуть ее по вертикали. Для этого нужно воспользоваться комбинацией клавиши Control и клавиши перемещения курсора вверх по вертикали. Нажимайте эту комбинацию клавиш несколько раз до тех пор, пока не получите нужный масштаб отображения.

На рис. 3-6 мы показали результат растяжения исходной осциллограммы по вертикали. Как видите, теперь на ней появились незаметные ранее детали.

Рис. 3-6. Растяжение по вертикали

Сжатие осциллограммы по вертикали выполняется при помощи комбинации клавиш Control и клавиши перемещения курсора вниз по вертикали.

Чтобы растянуть осциллограмму по горизонтали, воспользуйтесь комбинацией клавиши Shift и клавиши перемещения курсора вверх по вертикали. Результат такого растяжения исходной осциллограммы показан на рис. 3-7.

Рис. 3-7. Растяжение по горизонтали

Сжатие осциллограммы по горизонтали выполняется при помощи комбинации клавиш Shift и клавиши перемещения курсора вниз по вертикали.

Нормализация звуковых файлов

Перед проведением дальнейших исследований записанных ранее файлов мы рекомендуем провести нормализацию этих файлов. Нормализация заключается в таком масштабировании амплитуды файла, при котором максимальная амплитуда сигнала будет приведена к максимально возможному значению амплитуды, определяемого разрядностью формата звукового файла.

Чтобы выполнить нормализацию, загрузите в программу GoldWave исходный звуковой файл. Затем выберите из меню Effects строку Volume, а затем из меню второго уровня — строку Maximize.

Выделение фрагмента звукового файла

Одной из часто выполняемых при редактировании звуковых файлов операций является выделение фрагментов с целью их вырезки или перемещения в новый файл.

Выделить нужный фрагмент в окне редактора GoldWave можно с помощью мыши. Для этого вначале нужно щелкнуть левой клавишей мыши в начале выделяемого фрагмента, а затем — правой клавишей мыши в конце выделяемого фрагмента.

Выделенный фрагмент выделяется синим цветом. Это показано на рис. 3-8.

Рис. 3-8. Выделение фрагмента звукового файла

После того как фрагмент выделен, с ним можно выполнять различные операции, доступные через меню Edit и Effects. Вы можете скопировать фрагмент в универсальный буфер обмена Clipboard, удалить его, наложить фильтр и т.п.

Вырезка фрагмента звукового файла

При проведении собственных исследований речи Вам придется вырезать фрагменты записанных звуковых файлов, сохраняя их в отдельных файлах. Таким способом можно вручную выделять слова, слоги, фонемы, морфемы и другие лексические конструкции.

Операция вырезки фрагмента выполняется очень просто.

Вначале Вам нужно выделить фрагмент файла, используя технику, описанную в предыдущем разделе. Далее надо скопировать выделенный фрагмент в Clipboard, выбрав из меню Edit строку Copy. И, наконец, нужно создать из содержимого буфера обмена Clipboard новый звуковой файл, выбрав из меню Edit строку Paste new.

Рис. 3-9. Вырезанный фрагмент звукового файла

Теперь остается только сохранить новый файл, воспользовавшись для этого строкой Save As меню File.

Поиск лексических конструкций

При записи повествовательного предложения «Мама мыла раму» мы намеренно делали паузу между словами и слогами для того, чтобы впоследствии было легче выделить на осциллограмме лексические элементы.

На рис. 3-10 показана осциллограмма этого предложения. Всплески сигнала мы отметили соответствующими им слогами предложения.

Рис. 3-10. Повествовательное предложение

Что можно заметить, разглядывая эту осциллограмму?

Прежде всего, на осциллограмме отчетливо видно, что в начале предложения громкость звука резко увеличивается, а затем уменьшается от слога к слогу. Как вы скоро увидите, характер изменения амплитуды речевого сигнала для вопросительных предложений будет несколько иным.

Далее, на этой осциллограмме видны отдельные аллофоны, составляющие речь. Обратите внимание, что в слове мама первый слог выглядит несколько иначе, чем второй. Это хорошо видно на рис. 3-11, где мы растянули осциллограмму слова мама по горизонтали.

Рис. 3-11. Осциллограмма слова мама

На первый взгляд, можно было бы классифицировать фонемы и аллофоны по форме линий, огибающих соответствующий фрагмент осциллограммы. Однако на деле этот путь ведет в тупик, так как форма этой линии несет лишь информацию об энергии звукового сигнала, но не о его частотном спектре.

Для сравнения на рис. 3-12 и 3-13 мы показали увеличенные фрагменты слов мыла и раму. Как видите, формы огибающей линии довольно близки, хотя есть и отличия.

Рис. 3-12. Осциллограмма слова мыла

Рис. 3-13. Осциллограмма слова раму

Далее в этой главе мы проведем спектральный анализ, позволяющий выделять фонемы и аллофоны более надежно по сравнению с анализом формы огибающей линии.

Изменение интонации в предложениях

Мы уже говорили, что интонация может полностью менять смысл предложения. Посмотрим, как видно изменение интонации на осциллограмме речевого сигнала.

В предыдущем разделе была приведена осциллограмма повествовательного предложения «Мама мыла раму». Одним лишь изменением интонации это предложение может быть легко преобразовано в три различных по смыслу вопросительных предложения:

· `[Мама] мыла раму?

· Мама `[мыла] раму?

· Мама мыла `[раму]?

В первом случае интонационное ударение делается на слове мама. При этом мы подчеркиваем интонацией, что нас интересует, кто мыл раму — мама или кто-то еще.

Осциллограмма первого предложения наглядно демонстрирует увеличение амплитуды при произнесении слова мама (рис. 3-14).

Рис. 3-14. Ударение на первом слове

Во втором вопросе выясняется, мыла мама раму, или нет. Важное слово мыла при этом подчеркивается изменением интонации. На рис. 3-15 мы видим увеличение амплитуды фрагмента сигнала, соответствующего второму слову.

Рис. 3-15. Ударение на втором слове

И, наконец, на рис. 3-16 мы показали осциллограмму третьего вопросительного предложения, в котором выясняется, мыла мама раму или она мыла что-то еще. Соответственно, увеличение амплитуда сигнала приходится на последнее слово.

Рис. 3-16. Ударение на последнем слове

При проектировании синтезаторов речи необходимо учитывать наличие интонационных ударений. Если расставить такие ударения неправильно, синтезированная речь будет звучать неестественно.

Исследование спектра речевых звуков

Спектральные исследования речи позволяют проследить изменение содержания в звуках речи тех или иных частотных компонентов. В результате этих исследований было обнаружен факт наличия формантных частот, несущих в себе основную речевую информацию. Отслеживание изменений этих частот, а также изменений амплитуды звукового сигнала позволяет выделять из сигнала лексические элементы — фонемы и аллофоны.

В этом разделе мы расскажем Вам об использовании двух инструментальных средств, позволяющих проводить спектральные исследования речи. Это уже знакомая Вам программа GoldWave, а также система анализа речи SAS, созданная Алексеем Москаленко [3]. Программный комплекс SAS можно бесплатно загрузить из Интернета по адресу http://alexmoshp.chat.ru/index.htm. Этот комплекс поставляется вместе с документацией и исходными текстами, написанными на языке программирования C++ в среде Borland C++ Builder 4.0. Исходные тексты доступны для бесплатной загрузки с целью изучения и дальнейшей модификации исследователями проблемы речевого интерфейса.

Спектральный анализ в программе GoldWave

Помимо окон редактирования звуковых файлов, в главном окне программы GoldWave имеется окно Device Controls, при помощи которого можно управлять записью, перемоткой и проигрыванием звуковых файлов (3-17). Но это окно имеет еще одно назначение, а именно просмотр формы и спектра сигнала. Сейчас нас интересуют в первую очередь возможности этого окна, имеющие отношение к просмотру спектра.

Рис. 3-17. В окне Device Controls можно просматривать форму и спектр сигнала

Как видно на рис. 3-17, в нижней части окна Device Controls имеется два окна просмотра. Первое из них используется для отображения информации о первом канале стереофонического звука, а второе — о втором канале. Мы исследуем монофонические звуки речи, поэтому вся информация будет отображаться только в левом окне.

Если щелкнуть правой клавишей мыши в этом окне, на экране появится контекстное меню, задающее режимы просмотра. Вот строки этого меню:

· Amplitude;

· Spectrum;

· Log bar spectrum;

· Colour Spectrum;

· Spectrogram;

· Fire Spectrum;

· X-Y mode

Строка Amplitude переключает окно в режим просмотра амплитуды исходного сигнала.

Отображение происходит во время проигрывания сигнала, как это показано на рис. 3-17. Вы также можете щелкнуть левой клавишей мыши внутри окна редактирования звукового файла и, не отпуская эту клавишу, перемещать курсор мыши вправо и влево, рассматривая в окне Device Controls осциллограмму сигнала как под увеличительным стеклом.

Если выбрать из контекстного меню строку Spectrum, во время воспроизведения звука в окне будет отображаться текущий спектр звукового сигнала в виде графика, показанного на рис. 3-18.

Рис. 3-18. Просмотр спектра звукового сигнала в виде графика

К сожалению, этот график (как, впрочем, и все другие спектральные графики, создаваемые программой GoldWave) позволяет получить только качественную, а не количественную характеристику спектра. Получить с ее помощью какие-либо числовые параметры спектра текущая версия программы GoldWave не позволяет.

Режим Log bar spectrum позволяет просматривать спектр в виде диаграммы (рис. 3-19). Чем больше высота прямоугольника на диаграмме, тем больше содержание соответствующей частоты. Опять же, здесь мы можем только оценить спектр, но не получить его точное распределение в виде чисел.

Рис. 3-19. Просмотр спектра в виде диаграммы

В режиме Colour Spectrum отображается цветная диаграмма. Мы показали эту диаграмму на рис. 3-20. В нашей книге нельзя разместить цветные иллюстрации, поэтому изменение цвета на этом и других аналогичных рисунках видно как изменение оттенков серого цвета.

Рис. 3-20. Просмотр спектра в виде цветной диаграммы

Режим Spectrogram позволяет получить спектрограмму звукового сигнала (рис. 3-21).

Рис. 3-21. Спектрограмма звукового сигнала

На спектрограмме видно, как спектр изменяется со временем. При этом по горизонтальной оси откладывается время, а по вертикальной — частота сигнала. Что же касается интенсивности, то она обозначается цветом. Частота, имеющая малую интенсивность, отображается черным цветом, затем следуют цвета пурпурный, голубой, циан, зеленый, желтый и красный. Красный цвет соответствует максимальной интенсивности.

Обратите внимание, что спектрограмма, показанная на рис. 3-21, была снята для повествовательного предложения «Мама мыла раму». На этой спектрограмме четко видны отдельные фонемы и аллофоны. Используя нейронные сети, можно выделить эти лексические элементы из речи.

Спектральный анализ при помощи системы SAS

Система анализа речи SAS была создана как открытый проект, доступный для использования и модификации другими исследователями. Эта система позволяет исследовать проблемы, возникающие при практическом применении нейросетевых моделей и алгоритмов. Она представляет собой удобную интегрированную среду, пригодную для проведения исследований и визуализации результатов работы (рис. 3-22). При этом исследователю предоставляется возможность контроля многочисленных параметров системы.

Центральным компонентом системы SAS является программная нейронная сеть, снабженная средствами ввода, обработки и вывода сигналов. В системе SAS также имеются следующие инструментальные средства:

· спектральный анализатор речи, способный работать со звуковыми файлами, а также со звуком, полученным в реальном времени от микрофона (или другого источника звука);

· синтезатор речи, основанный на базе формантно-голосовой модели;

· модуль визуализации процессов обучения и распознавания в используемой нейросетевой модели.

На данном этапе мы изучим только спектральный анализатор речи, входящий в состав системы анализа речи SAS. Что же касается нейронных сетей и их применения для распознавания речи, то эти вопросы будут изложены в 4 главе.

Рис. 3-22. Система анализа речи SAS

Помимо отображения спектра и волновой формы звукового сигнала, записанного в wav-файлах и получаемых в реальном времени от звукового адаптера, анализатор спектра используется для отображения синтезируемого звука.

Настройка параметров сигнала

Запустив программу SAS, выполните настройку параметров сигнала. Для этого выберите из меню Файл строку Настройки. На экране появится диалоговое окно настройки параметров, показанное на рис. 3-23.

Рис. 3-23. Параметры ввода и преобразования сигнала

Откройте вкладку Ввод сигнала. На данном этапе нам требуется установить на этой вкладке только один параметр — частоту дискретизации входного сигнала. Эту частоту нужно выбрать из списка Рабочая частота дискретизации.

Учтите, что система SAS может работать только с монофоническими 16-разрядными звуковыми файлами PCM. При этом частота дискретизации может принимать одно из трех значений:

· 11 025 Гц;

· 22 050 Гц;

· 44 100 Гц

Наши файлы с предложением «Мама мыла раму» были записаны при помощи редактора GoldWawe с частотой дискретизации 11 025 Гц, поэтому мы установили именно это значение на вкладке Ввод сигнала.

Получение спектрограммы

Чтобы получить спектрограмму звукового сигнала, записанного в файле, откройте этот файл. Для этого воспользуйтесь строкой Открыть в меню Файл, или кнопкой Открыть, расположенной на инструментальной панели.

После открытия звукового файла в главном окне программы появляется окно анализатора спектра Анализатор, показанное на рис. 3-24.

Рис. 3-24. Открыт звуковой файл

Если появление окна Анализатор сопровождается сообщениями об ошибках, проверьте формат звукового файла и настройку частоты дискретизации, о которой мы говорили в предыдущем разделе.

В левой части панели Контроллер находятся элементы управления выбора источника звука и кнопки управления проигрыванием, а в правой части — окно просмотра волновой формы звукового сигнала.

Просмотр спектрограммы

Чтобы просмотреть спектр в заданной точке файла, переместите в эту точку движок окна просмотра волновой формы звукового сигнала.

Теперь в окне анализатора появится изображение нового спектрального распределения (рис. 3-25).

Рис. 3-25. Просмотр спектра в различных точках файла

В окне Развертка спектра можно просмотреть развертку спектра во времени. На рис. 3‑25 такая развертка отображается в двумерном виде. Однако стоит щелкнуть кнопку 3D Развертка, и в окне анализатора появится трехмерная развертка спектра исследуемого сигнала (рис. 3-26).

Рис. 3-26. Трехмерная развертка спектра исследуемого сигнала

При этом используются следующие измерения: время, частота и амплитуда. Автор программы рекомендует применять этот режим для отображения формантного состава и динамики речи.

Так же как и программа GoldWave, описанная ранее в этой главе, программа SAS не позволяет производить точных количественных измерений спектра. Она предназначена только для визуального просмотра формы спектра.

При этом Вы можете узнать частоту в любой точке спектра, поместив в эту точку курсор мыши. Значение частоты будет показано в правом нижнем углу окна Спектр (рис. 3-26).

Настройка параметров анализатора спектра

Чтобы настроить параметры работы анализатора спектра, выберите из меню Файл строку Настройки. На экране появится диалоговое окно настройки параметров, в котором нужно открыть вкладку Анализатор (рис. 3-27).

Рис. 3-27. Настройка параметров анализатора спектра

Выбирая значения из списка Размер окна, можно задавать разрешение анализатора в пространстве частот. Список Окно сглаживания позволяет выбрать тип окна сглаживания, накладываемого на временную форму сигнала перед вычислением быстрого преобразования Фурье (БПФ). Прямоугольное окно соответствует отсутствию окна сглаживания.

Если Вам интересна только часть спектра исследуемого сигнала, Вы можете задать нижнюю и верхнюю границу отображения спектра в полях Первая частота и Последняя частота, соответственно.

При помощи списка Показывать спектр как можно выбрать один из вариантов отображения спектра. Эта настройка действует при просмотре двухмерного спектрального распределения.

Что же касается трехмерного изображения спектра, то здесь Вы можете задать в поле Число срезов количество отдельных спектральных линеек, одновременно отображаемых в окне Спектр.

Отметив флажок Развертка всего файла, можно включить режим отображения, при котором окна спектральных преобразований располагаются так, чтобы охватить сразу весь файл. Если же этот флажок не отмечен, окна будут расположены последовательно друг за другом.

Профессиональные системы анализа речи

Каждая компания, профессионально занимающаяся речью, создает свой набор инструментальных средств. Некоторые из этих средств доступны, и их можно купить либо загрузить с Web-сервера компании.

Компания «Центр речевых технологий» (http://www.speechpro.ru) специализируется в области исследований и разработки систем распознавания речи, очистки речевых сигналов от шума и сжатии речи.

Эта компания была образована в 1990 году небольшой группой инженеров- разработчиков, работавших до этого в крупнейших Научно-исследовательских институтах военно-промышленного комплекса Санкт-Петербурга. Сотрудники «Центра речевых технологий» — опытные ученые и инженеры, имеющие за плечами множество успешных проектов в области создания компьютеризированных электронных приборов и аппаратуры. Созданная ими аппаратура использовалась, главным образом, в фундаментальных исследованиях и в военных целях.

Системы, созданные «Центром речевых технологий», проверяются для разграничения доступа с использованием голоса, для проведения судебных фонетических экспертиз и расшифровки записей, сделанных «черными ящиками» самолетов.

В этой главе мы расскажем о следующих программах и комплексах, созданных центром:

· инструментальный комплекс анализа и очистки от шума звуковых сигналов Икар;

· программа трехмерного графического отображения спектра звукового сигнала в реальном времени VisiVoice

Эти средства предназначены для анализа речи и звуковых сигналов. Что же касается распознавания речи и других технологий, созданных «Центром речевых технологий», то мы рассмотрим их в 6 главе нашей книги.

Инструментальный комплекс Икар

Комплекс анализа и очистки от шума звуковых сигналов Икар представляет собой систему, предназначенную для ввода, анализа и обработки акустических сигналов.

Этот комплекс создавался специально для работы в экспертных лабораториях МВД, ФСБ и МЮ России как универсальный инструмент, предназначенный для решения различных задач, возникающих при проведении фонографической экспертизы.

Вот перечень этих задач, который говорит сам за себя:

· идентификация дикторов по фонограммам речи;

· очистка от шума и текстовая расшифровка низкокачественных фонограмм речи;

· диагностика личности говорящего;

· диагностика акустической обстановки;

· тестирование и идентификация каналов передачи акустической информации звукозаписи;

· установление подлинности фонограмм речи и выявление следов монтажа фонограмм

Этот комплекс может оказать услуги в борьбе с телефонным терроризмом, при возникновении ситуаций с захватом заложников (анализ речевых записей переговоров с заложниками) и в других оперативных ситуациях, требующих анализа звуковых сигналов.

Комплекс Икар позволяет записать звуковой сигнал и получить его осциллограмму, динамическую спектрограмму или сонограмму, используя различные способы отображения. При помощи этого комплекса можно, получить частотный отклик коэффициентов линейного предсказания, получить динамическую кепстрограмму и автокореллограмму, средний спектр быстрого преобразования Фурье БПФ и стационарный спектр. Комплекс позволяет вычислить различными методами основной тон голоса.

Конфигурация комплекса

Задачи, решаемые комплексом Икар, предъявляют высокие требования к звуковому оборудованию компьютера, поэтому здесь нельзя применять дешевые звуковые адаптеры, встроенные в системную плату компьютера. В комплексе Икар оцифровка звука выполняется профессиональным звуковым адаптером STC-H189, при этом используется 16-разрядная импульсно-кодовая модуляция PCM.

Использование профессионального звукового адаптера позволяет получить при работе следующие характеристики входного и выходного тракта:

· частота дискретизации от 2 000 до 48 000 Гц (выбирается пользователем);

· соотношение сигнал/шум в полосе пропускания 5 000 Гц — не менее 80 дБ, 20 000 Гц — не менее 75 дБ;

· коэффициент нелинейных искажений не более 0,02%;

· неравномерность АЧХ в полосе пропускания в пределах 1дБ

Внешние подключения к источникам сигнала осуществляются через выносной блок сопряжения ВСС-03. Этот блок допускает подключение к стандартным линейным несимметричным входам и выходам звукового адаптера и к микрофонному входу. Для прослушивания звука к блоку сопряжения подключаются головные телефоны (рис. 3-28).

Рис. 3-28. Инструментальный комплекс анализа и очистки от шума звуковых сигналов Икар

Что касается программного обеспечения, то в состав комплекса входит несколько программ:

· программа визуализации, анализа и очистки от шума звуковых сигналов в реальном времени SIS:

· программа очистки звуковых сигналов от шума Sound Cleaner;

· программа ускоренной текстовой расшифровки фонограмм речи STC-S122 (компьютерный транскрайбер)

Состав программ и их возможности определяются вариантом поставки комплекса Икар. Полный вариант поставки включает в себя все эти программы. Программы комплекса защищены от нелицензионного использования ключом электронной защиты HASP, подключаемым к порту LPT или USB.

Наилучший результат при решении большинства задач, для которых разрабатывался комплекс Икар, достигается при комплексном использовании всех входящих в него компонентов и программ.

Вот типичный сценарий использования программ комплекса.

Аналоговый сигнал (например, с магнитофона) вводится в персональный компьютер с помощью программы SIS и звуковой платы STC-H189. После этого проводится первичное редактирование, в процессе которого выделяются и сохраняются необходимые для работы участки звукового сигнала.

При удовлетворительном качестве сигнала его дословное содержание печатается с помощью компьютерного транскрайбера.

При неудовлетворительном качестве сигнала (недостаточной разборчивости речи) вся фонограмма или отдельные ее участки обрабатываются программой Sound Cleaner.

Наиболее зашумленные участки сигнала, особенно с быстрым изменением параметров шума обрабатываются и «расшифровываются» с помощью программы SIS. Эта же программа позволяет произвести подробный спектральный анализ сигнала при идентификационном исследовании и поиске следов фальсификации фонограмм, а также поверить характеристики аудиоаппаратуры.

Для работы с комплексом Икар требуется специальная подготовка, поэтому в состав комплекса входит три руководства:

· сборник научно-методических рекомендаций по практическому использованию программы;

· сборник научно-методических рекомендаций по очистке от шума и установлению дословного содержания низкокачественных фонограмм речи;

· сборник научно-методических рекомендаций по выполнению криминалистических экспертиз

Кроме того, сотрудники центра речевых технологий берутся за один день обучить пользователей комплекса основам работы (инсталляция и настройка программного обеспечения, тестирование платы и т.д.).

Программа SIS

Ядром комплекса Икар является программа визуализации, анализа и очистки от шума звуковых сигналов SIS. С помощью этой программы можно также вводить и редактировать звуковые сигналы.

Программа SIS (рис. 3-29) позволяет решать наиболее сложные задачи исследования речевых фонограмм, например:

· установление аутентичности фонограмм (выявление следов аналогового и цифрового монтажа);

· идентификация личности по фонограммам речи низкого качества и малой продолжительности (на русском и иностранных языках);

· тестирование и идентификация аппаратуры записи-воспроизведения;

· сегментация фонограмм переговоров большой продолжительности (выделение речи определенного диктора или дикторов);

· очистка от шума и текстовая расшифровка наиболее низкокачественных фонограмм речи

Рис. 3-29. Программа SIS комплекса Икар

На рис. 3-30 показано меню подсистемы анализа звука в комплексе Икар.

Рис. 3-30. Средства анализа звука в комплексе Икар

Средства очистки звукового сигнала от шума и текстовой расшифровки фонограмм речи, доступные в программе SIS, впечатляют.

Программа SIS может выполнять частотную коррекцию и подавление гармоник в ручном или в автоматическом режиме с помощью цифрового графического эквалайзера. Этот эквалайзер имеет 2048 спектральных полос и динамический диапазон 92 дБ.

Адаптивная коррекция спектра позволяет подавлять мощные частотные составляющие и усиливать слабые, компенсировать искажения, вызванные неравномерностью амплитудно-частотной характеристикой АЧХ канала записи или связи.

Программа SIS позволяет выделить сигнал на уровне тональных и регулярных помех, например, речь на фоне медленной музыки. Возможно удаление любого вида шумов и помех для стереофонических фонограмм с применением стереофонической фильтрации сигнала.

Сигнал может быть выделен на фоне широкополосных шумов, имеющих случайно изменяющиеся спектральные компоненты на многих частотах (такие как шумы каналов связи, уличный шум). Для этого применяется адаптивная фильтрация, в том числе по образцу шума с автоматическим определением такого образца, адаптивная фильтрация импульсных помех и адаптивное подавление нежелательных гармоник сигнала.

С помощью программы SIS можно выполнить коррекцию тембра — ограничить частотную полосу сигнала и выполнить подстройку под индивидуальные особенности слуха.

Если сигнал исказился в результате ограничения по амплитуде, то программа SIS компенсирует возникшие при этом нелинейные искажения. Такое искажение может возникнуть, например, при слишком высокой громкости записываемого звука.

Программа может также выполнять динамическую обработку сигнала, выравнивая громкость, устраняя амплитудные выбросы, а также усиливая участки с малым уровнем амплитуды.

При необходимости монофонический сигнал может быть преобразован в псевдостереофонический сигнал или композитный стереофонический сигнал с регулируемым временем задержки.

Программа может корректировать скорость воспроизведения сигнала без искажения тембра голоса. Заметим, что такие искажения появляются при изменении скорости воспроизведения обычного магнитофона.

Можно также обеспечить циклическое воспроизведение выделенных фрагментов звука.

Ниже мы перечислили средства редактирования и подготовки звукового сигнала к исследованию. Доступные пользователю программы SIS:

· нормализация сигнала (по амплитуде или в интервал времени);

· операции с константами (умножение, деление, сложение, вычитание);

· линейное преобразование;

· удаление, вставка, копирование, перемещение (в другое окно);

· сглаживание;

· смешивание сигналов;

· инверсия;

· реверс;

· высокоточная повторная дискретизация.

В составе программы SIS имеются средства тестирования каналов ввода и вывода. Это генератор тестовых сигналов, средства автоматизированное тестирование сквозного звукового тракта, средства снятия основных характеристик каналов ввода и вывода звука (соотношение сигнал/шум, коэффициент нелинейных искажений, АЧХ).

Программа очистки от шума в реальном масштабе времени Sound Cleaner

Рассмотренная в предыдущем разделе программа SIS позволяет выполнять обработку заранее записанных звуковых сигналов. Что же касается программы Sound Cleaner, то с ее помощью можно выполнять очистку от шума звукового сигнала в реальном времени. По своим возможностям очистки сигнала от шума эта программа аналогична программе SIS.

Программа ускоренной текстовой расшифровки фонограмм речи

Программа ускоренной текстовой расшифровки фонограмм речи сочетает в себе функциональные возможности цифрового магнитофона, текстового редактора и специальных средств связи звука с текстом. Такая программа называется компьютерным траскрайбером.

При работе с транскрайбером комплекса Икар обеспечивается мгновенный доступ к любому записанному фрагменту фонограммы посредством «перемотки» или поиском «по тексту», воспроизведение в режиме «кольцо». В процессе воспроизведения возможна коррекция темпа речевого сигнала.

Специалисты компании «Центр речевых технологий» отмечают, что на практике применение компьютерного транскрайбера дает, как минимум, трехкратное увеличение скорости текстовой расшифровки речевых фонограмм.

Эта технология гарантирует сохранность записанной информации, утрата которой вполне возможна при использовании обычного магнитофона для многократного прослушивания записи. Кроме того, обеспечивается сохранность дорогостоящей аудиотехники, что тоже имеет определенное значение.

Программа VisiVoice

Программа VisibleVoice (рис. 3-31), созданная в компании «Центр речевых технологий», может применяться для тестирования и постановки слуха и голоса, при изучении иностранных языков, а также для настройки музыкальных инструментов.

С помощью этой программы можно демонстрировать динамические характеристики звука в музыкальном центре, в выставочном павильоне, на дискотеке или на большом экране.

Рис. 3-31. Программа 3-мерного графического отображения спектра звукового сигнала в реальном времени VisiVoice

При использовании программы VisiVoice Вы можете выбрать два спектральных диапазона:

· вокальный диапазон 65-1000 Гц в логарифмическом масштабе;

· общий диапазон 20-4500 Гц в линейном масштабе

Работая в вокальном диапазоне, можно оценить свои способности исполнения музыкальных фрагментов. Работая в общем диапазоне, можно оценить мелодические характеристики голоса, а также правильность произношения звуков, например, при изучении иностранного языка.

В левой части главного окне программы VisiVoice (рис. 3-31) отображается речевой спектр и изменяющаяся диаграмма. В провом окне отображается «стоп-кадр» диаграммы голоса или любой зафиксированный по Вашему желанию фрагмент.

В верхнем левом углу главного окна программы находится эквалайзер. Пять ручек эквалайзера позволяют изменять спектр сигнала для более подробного изучения выбранных участком спектра. Три кнопки, расположенные справа от движков эквалайзера, позволяют установить эти движки в стандартные позиции.

Итоги главы

В этой главе мы рассказали Вам о некоторых программных инструментальных средствах, с помощью которых Вы можете приступить к самостоятельным исследованиям в области распознавания и синтеза речи.

Вы узнали, что для просмотра волновой формы сигнала нет необходимости приобретать дорогостоящий пробор — осциллограф. Все исследования можно сделать при помощи специализированного программного обеспечения, такого как редактор GoldWave.

Рассказывая о возможностях программы GoldWave, мы сказали, что эта программа может выступать не только в роли осциллографа, но и в роли мощного редактора звуковых файлов, а также инструмента для записи и проигрывания таких файлов.

Программа GoldWave может накладывать на обрабатываемый файл частотные и другие фильтры, выполнять нормализацию уровня сигнала и сохранять обработанный звук в новом файле.

Работая с программой GoldWave, Вы научились записывать речевые файлы, а также вырезать фрагменты этих файлов для дальнейших исследований, сохраняя их в отдельных файлах.

На примере осциллограммы повествовательного предложения из букваря «Мама мыла раму» мы показали, как можно выделить лексические элементы — слоги и фонемы. Мы также исследовали изменение интонации в повествовательных и вопросительных предложениях.

Вторая часть этой главы была посвящена исследованию спектра звукового сигнала.

Мы рассказали Вам о том, как получить спектрограммы звуковых сигналов при помощи программы GoldWave, а также при помощи специализированной системы анализа речи SAS [3]. Вы узнали о различных способах визуального представления спектра и спектрограмм, а также научились пользоваться анализатором спектра, входящим в состав системы SAS, и настраивать параметры этого анализатора.

В конце главы мы рассказали о профессиональных инструментальных средствах, предназначенных для работы со звуком, разработанные компанией «Центр речевых технологий». Эти средства позволяют выделять голос из шумов, проводить сложнейшую обработку и исследование звуковых сигналов.

Программа VisiVoice, созданная в этом же центре, имеет более ограниченное применение. Она будет полезна музыкантам и тем, кто занимается изучением иностранных языков.