Синтез и распознавание речи. Современные решения © А.В. Фролов, Г.В. Фролов, 2003 Прежде чем двигаться дальше, подведем некоторые итоги. В первой главе нашей книги Вы познакомились с внутренним строением речевых и слуховых органов человека. Изучение этого вопроса имеет большое значение для создания систем синтеза и распознавания речи. Вы узнали, что звуки речи образуются в результате прохождения воздуха из легких через трахею в гортань, а далее в носовую и ротовую полость. Если при этом работают голосовые связки, образуется звучащая речь, если же связки не работают — то шепот. Все органы речи делятся на активные и пассивные органы. Активные органы, такие как голосовые связки, язык, губы, мягкое небо, язычок, задняя спинка зева и нижняя челюсть совершают движения и формируют спектр звуков. В процессе речи активные органы выполняют движения, называемые артикуляцией. Артикуляция состоит из фазы приступа, выдержки и отступа. Пассивные органы только определяют форму внутренних полостей речевых органов, влияющую на резонансные свойства полостей. Звуки речи принято делить на голосовые и шумовые звуки. Что касается шумовых звуков, то они образуются при произнесении некоторых согласных . Шумовые звуки бывают турбулентные и импульсные. Голосовые звуки содержат не одну какую-либо частоту, а целый спектр частот. Исследователи установили, что в образовании речи участвуют четыре частоты, называемые формантными частотами. В процессе артикуляции изменяется амплитуда и частота формантных частот. Этот факт используется в системах синтеза и распознавания речи. Мы рассмотрели лингвистические понятия, играющие важную роль при создании речевых систем. Эти понятия имеют иерархическую структуру. На нижнем уровне находится фонетический уровень, затем фонологический, морфологический, лексический, синтаксический и, наконец, семантический уровень. На фонетическом уровне выделяются элементарные лингвистические элементы, составляющие речь — фонемы, а также их модификации, называемые аллофонами. Многочисленные признаки фонем и аллофонов используют для выделения фонем и аллофонов из слитной речи. Фонологический уровень выделяет возможные в данном языке комбинации фонем и аллофонов, а морфологический — такие элементы, как слоги и морфемы, состоящие из фонем и аллофонов. На лексическом уровне определяются слова и словоформы, которые возможны для данного языка. И, наконец, на семантическом уровне человеческий мозг отображает речевые конструкции на понятия и образы, устанавливая отношения между объектами и обозначающими их словами. Были рассмотрены фонетические процессы, участвующие в образовании речи, такие как аккомодация, ассимиляция, диссимиляция, эпентезы, протезы, диерезы, фонетические и традиционные чередования. При синтезе речи необходимо учитывать наличие всех этих процессов, иначе качество синтезированной речи будет низким. При синтезе и распознавании речи необходимо учитывать изменение интонации речи, то есть ее громкости и темпа, наличие ударных и безударных слогов. Помимо фонемной модели исследователи используют и дифонную модель. Дифоном называется звуковая единица, протяженная от середины одного звука до середины последующего. По сравнению с фонемной моделью дифонная модель обладает рядом недостатков, в частности, трудностью составления словаря дифонов. Предметом изучения специалистов в области распознавания и синтеза речи является не только голосовые, но и слуховые органы человека. Человеческое ухо делится на наружное, среднее и внутреннее ухо. Наружно и среднее ухо передают звуковые колебания в улитку, расположенную во внутреннем ухе. Чувствительные волоски, расположенные в улитке, преобразуют колебания в электрические сигналы, поступающие по нервам в головной мозг. Частотный диапазон звуковых колебаний, воспринимаемых человеком, составляет 16-20 000 Гц. Однако частотный диапазон речи уже и составляет 300-4000 Гц. Речь остается разборчивой при дальнейшем сужении частотного диапазона до 300-2400 Гц. Этот факт можно использовать в системах распознавания речи для снижения влияния помех. |