Синтез и распознавание речи. Современные решения © А.В. Фролов, Г.В. Фролов, 2003 Итак, мы рассказали Вам о строении органов речи человека. Вы узнали, как с помощью голосовых связок речь наполняется звуком, а также познакомились с фонемной и дифонной моделями речи. Наибольший объем информации об окружающем мире человек (и животные) получает через глаза и уши. Наличие пары ушей обеспечивает «стереофонический слух», с помощью которого человек может быстро определять направление на источник звука. Уши воспринимают колебания воздуха и превращают их в электрические сигналы, поступающие в мозг. В результате обработки по неизвестным нам пока алгоритмам эти сигналы превращаются в образы. Создание таких алгоритмов для компьютеров и есть научная задача, решение которой необходимо для разработки по-настоящему хорошо работающих систем распознавания речи. В оставшейся части первой главы нам предстоит узнать, как работают органы слуха человека, позволяющие ему слышать речь и различные звуки. Изучение внутреннего уха помогает исследователям понять механизмы, с помощью которых человек способен распознавать речь, хотя это и не так просто. Как мы уже говорили, многие изобретения человек подсматривает у природы. Такие попытки предпринимаются и специалистами в области синтеза и распознавания речи. Читателей, интересующихся деталями анатомии, мы отправляем к [7]. Там Вы найдете полное описание устройства уха и всевозможные медицинские подробности, далеко выходящие за рамки нашей книги. Чтобы увидеть внутреннее строение человеческого уха, нужно обратиться к анатомическому атласу. На рис. рис. 1-6 мы показали в разрезе наиболее важные части человеческого уха. Рис. 1-6. Внутренняя структура уха Студенты-медики, изучавшие анатомию, хорошо знают, что анатомическое ухо делится на три части: · наружное ухо; · среднее ухо; · внутреннее ухо. Наружное ухо Вы можете изучить самостоятельно при помощи зеркала. Оно состоит из ушной раковины и наружного слухового прохода. Функционально наружное ухо предназначено, во-первых, для улавливания и фокусировки звуковых волн (что нужно для улучшения слуха), и, во-вторых, для защиты среднего и внутреннего уха от механических повреждений. Что же касается преобразования звуковых колебаний воздуха в электрические импульсы, то наружное ухо не имеет к этому процессу никакого отношения. Внутреннее строение среднего уха показано на рис. 1-7. Среднее ухо герметично отделено от наружного уха барабанной перепонкой. Таким образом, когда вода попадает к Вам в ухо, она может залить только наружное ухо, но дальше она не пройдет. Толщина барабанной перепонки всего 0.1 мм, и ее легко повредить. Поэтому относитесь серьезно к советам врачей, и никогда не вставляйте в уши посторонние предметы. Рис. 1-7. Среднее ухо Внутренняя область среднего уха, называемая барабанной полостью, соединена при помощи евстахиевой трубы с носоглоткой. Это позволяет поддерживать давление внутри барабанной полости, равному внешнему атмосферному давлению. Воздух попадает в барабанную полость через евстахиеву трубу, когда человек глотает. Пре резком изменении внешнего давления (например, в самолете) появляется давящее ощущение в ушах. Однако стоит сделать несколько глотков — и проблем исчезнет, так как давление уровняется через евстахиеву трубу. В барабанной полости находится система так называемых слуховых косточек, состоящая из молоточка, наковальни и стремени. Эти косточки связаны между собой в единую подвижную цепь, состоящую из рычагов. Задача системы слуховых косточек заключается в передаче звуковых колебаний от барабанной перепонки в область внутреннего уха. Внутреннее ухо представляет наибольший интерес для специалистов по распознаванию речи, так как именно оно ответственно за преобразование звуковых колебаний в электрические импульсы. Внутреннее ухо заполнено жидкостью. Оно состоит из двух частей: вестибулярного аппарата и улитки. Свое название улитка получила из-за своей формы — улитка свернута спирально, наподобие раковины обычной улитки. Механизм функционирования внутреннего уха достаточно сложен и описан в [8]. Важно, что внутри улитки имеются чувствительные волоски, «подключенные» при помощи нервов к головному мозгу (рис. 1-8). Рис. 1-8. Чувствительные волоски внутри улитки Улитка разделена эластичной перегородкой на два канала, заполненных жидкостью. В этой перегородке и находятся упомянутые выше чувствительные волоски и нервы. Частотный диапазон звуковых колебаний Согласно [7], человеческое ухо воспринимает звуковые волны длиной примерно от 1,6 см до 20 м, что соответствует частотному диапазону 16-20 000 Гц. Животные могут слышать звуки более низкой или более высокой частоты. Так, например, дельфинам и летучим мышам доступно общение при помощи ультразвука, а китам — инфразвука. Поэтому человек не слышит весь частотный диапазон звуков, издаваемых этими и некоторыми другими животными. Что же касается человеческой речи, то ее частотный диапазон 300-4000 Гц. Надо заметить, что разборчивость речи останется вполне удовлетворительной при ограничении этого диапазона до 300-2400 Гц. Когда мы занимались любительской радиосвязью, то добавляли в приемники соответствующие полосовые фильтры, улучшающие прием в условиях помех. Надо сказать, что частотный диапазон обычных телефонных каналов тоже не слишком широкий, однако это не сказывается заметным образом на разборчивость речи. Сказанное означает, что для улучшения качества распознавания речи компьютерные системы могут исключить из анализа частоты, лежащие вне диапазона 300-4000 Гц или даже вне диапазона 300-2400 Гц. |