Электронная библиотека книг Александра Фролова и Григория Фролова.
Shop2You.ru Создайте свой интернет-магазин
Библиотека
Братьев
Фроловых
[Назад] [Содержание] [Дальше]

Синтез и распознавание речи. Современные решения

© А.В. Фролов, Г.В. Фролов, 2003



Работа речевого тракта

Итак, мы выяснили, из чего состоит речевой тракт человека. Поступая из легких и проходя через гортань, воздух проходит мимо голосовых связок. Колебания этих связок и создают звук, который мы слышим, когда человек говорит или поет. Многочисленные резонаторы, форму которых человек может изменять при помощи активных органов речи, формируют звуковую окраску голоса.

Теперь мы рассмотрим весь этот процесс подробнее, остановив внимание на некоторых деталях, существенных для систем синтеза и распознавания речи.

Артикуляция

Движения, выполняемые органами речи в процессе произнесения звуков, называются артикуляцией.

Артикуляция является сложным процессом, описание которой охватывает до дюжины различных признаков. Процесс артикуляции состоит из трех фаз [2]:

·         приступ (экскурсия);

·         выдержка;

·         отступ (рекурсия).

Во время приступа артикуляции органы речи переходят из спокойного состояния в положение, необходимое для произнесения данного звука.

Во время фазы выдержки органы речи сохраняют свое положение, необходимое для произнесения текущего звука.

И, наконец, на фазе отступа органы речи переводятся в спокойное состояние.

Голосовые и шумовые звуки

Как мы уже говорили, колебания связок придают голосу звучание. В этом звучании выделяется так называемый основной тон, или тон основной частоты. Значение частоты основного тона зависит от размеров и степени натяжения связок.

У разных людей могут быть разные размеры связок, поэтому тональность голоса разных людей обычно различается. Регулируя натяжение связок в процессе артикуляции, человек может менять частоту основного тона.

Помимо голосовых, человек может издавать и шумовые звуки.

Все шумовые звуки можно разделить на два типа: турбулентные и импульсные [3].

Турбулентные звуки образуются при прохождении звука через сужения речевого тракта. Например, согласные с, ф, х, ц, ч, ш, щ произносятся «без голоса» с использованием турбулентных шумовых звуков.

Импульсные шумовые звуки образуются при резком изменении давления при прерывании струи воздуха. Это происходит, когда Вы произносите такие согласные, как пктд.

Гармоники

Возможно, Вы знаете, что звук идеально чистого тона содержит колебания только одной частоты. График изменения амплитуды звукового сигнала чистого тона может быть представлен в виде идеальной синусоиды.

На практике, однако, звуки с идеально чистым тоном в обиходе встречаются довольно редко. Если, например, скрипач, пианист и певец возьмут ноту «ля», то отличия в звучании будет заметно на слух, хотя тон звука во всех трех случаях будет одинаковый.

В чем тут дело?

А дело тут в том, что помимо тона основной частоты, в звуке инструментов и голосе всегда присутствуют так называемые гармоники. Гармоники представляют собой звуки других частот, отличных от основной частоты.

В общем случае любой звук можно представить в виде некоторого бесконечного набора абсолютно чистых звуков различных частот. Совокупность частот таких чистых звуков мы будем называть спектром звука.

Таким образом, практически в любом звуке помимо основной частоты присутствуют и другие частоты спектра, называемые гармоническими составляющими, или просто гармониками. От процентного соотношения гармонических составляющих зависит окраска звука.

Все вышесказанное относится, кстати,  не только к звуку, но и к свету. Если Вы думаете, что красный сигнал светофора содержит только один какой-то оттенок красного цвета, то на самом деле это не так. Лампа накаливания излучает целый спектр, а красный фильтр светофора выделяет из этого спектра некоторый диапазон красных оттенков.

Другое дело — лазер. Его излучение является монохромным. Это означает, что в нем присутствует только один цвет. Лазерная указка, которую можно купить в любом киоске, излучает монохромный красный цвет, и в этом она сильно отличается от  красного фонаря светофора.

Формантные частоты

Теперь Вы знаете, что даже в чистом, на первый взгляд, звучании ноты, может присутствовать целый спектр звуковых частот.

Голосовые органы человека добавляют к основному тону, формируемому голосовыми связками, дополнительные гармонические составляющие. Эти составляющие придают окраску голоса, по которой Вы, в частности, сможете узнавать речь знакомых Вам людей.

В результате исследований было установлено, что в образовании речи активно участвуют четыре частоты, образующиеся в резонансных полостях речевого тракта [1]. Эти частоты называются формантами.

В процессе артикуляции происходит постоянное изменение амплитуды формантных частот, которое можно обнаружить при помощи программ спектрального анализа. Такие программы позволяют развернуть спектр сигнала во времени, отображая его в трехмерном виде.

На рис 1-3 четко виден формантный состав гласных и и у при произнесении последовательности этих звуков  [3]. При переходе от гласной и происходит смещение частоты форманты F2 c 2400 Гц на 784 Гц, а также одновременное ослабление формант F3 и F4.

 

Рис. 1-3. Формантный состав гласных и и у.

Как видите, в процессе артикуляции может изменяться как амплитуда, так и частота форматных составляющих звука. При этом, однако, количество самих формант в голосовых звуках остается постоянным и всегда равно 4.

Что же касается шумовых звуков, то в них затруднительно выделить формантные составляющие. Это видно на рис. 1-4, где приведен спектр звука х (представляющего собой турбулентный шум) [3].

Рис. 1-4. Спектр звука х

Забегая вперед, скажем, что современные системы распознавания речи выполняют спектральный анализ, который позволяет выделить из звуковых сигналов речи наиболее информативные составляющие. Это формантные частоты, а также шум. Помимо спектрального анализа используются и более совершенные методы, такие, например, как вейвлет-преобразования (о них мы расскажем позже в 5 главе).

Что же касается синтеза речи, то один из таких методов предполагает создание звуков речи из отдельных формантных составляющих с добавлением шума.

[Назад] [Содержание] [Дальше]