Синтез и распознавание речи. Современные решения

Уже несколько десятков лет тому назад люди предпринимали попытки создания систем синтеза и распознавания речи. Разумеется, все эти попытки начинались с исследования анатомии и принципов работы речевых, а также слуховых органов человека, в надежде смоделировать их при помощи компьютера и специальных электронных устройств.

В этой главе мы расскажем Вам о том, как примерно устроены органы речи и слуха человека, и как они работают. Конечно, наше изложение анатомических подробностей не претендует на полноту. Оно предназначено лишь для того, чтобы дать Вам некоторое представление о тех вещах, понимание которых имеет значение для систем синтеза и распознавания речи. Более точную и подробную информацию можно найти в любом анатомическом атласе.

Мы также приведем минимальные сведения о такой науке, как языкознание, т.е. науке о языке. Эта наука также называется лингвистикой. В рамках этой книги мы не сможем изложить все постулаты этой науки и ограничимся лишь теми минимальными сведениями, которые пригодятся нам при изучении методов синтеза и распознавания речи.

В этой главе Вы познакомитесь с терминами, которыми оперируют специалисты в области речевых технологий. А главное, сумеете оценить сложность исходных данных, с которыми имеют дело эти специалисты.

Речевой тракт человека

Как и все, созданное природой, речевые органы человека отличаются совершенством. С их помощью человек может не только говорить и петь, но и подражать звукам, издаваемым различными животными.

В этом разделе мы рассмотрим роль в формировании звуков отдельных речевых органов человека, таких как голосовые связки, язык и т.д.

Схема речевого тракта

На рис. 1 мы показали сильно упрощенную схему речевого тракта человека [1]. «Двигателем» этой системы, необходимым для ее функционирования, являются легкие. При выдохе воздух из легких поступает через трахею в гортань, а затем в ротовую и носовую полость.

Рис. 1-1. Речевой тракт человека.

Схематически движение воздуха показано на рис. 2. Как видите, на выходе из гортани поток воздуха может раздваиваться, поступая одновременно в носовую и ротовую полость.

Рис. 1-2. Схема прохождения воздуха при образовании голоса.

Органы, расположенные в ротовой полости, наряду с голосовыми связками, играют решающую роль в формировании звуков. Что же касается носовой полости, то она служит резонатором, усиливая колебания определенных частот.

Голосовые связки

Колебания голосовых связок, расположенных на входе в гортань, наполняет речь человека голосом (мелодичным или не очень, это у кого как). Голосовые связки не работают, когда человек говорит шепотом.

При повреждении голосовых связок в результате болезни или травмы человек способен только шептать. К счастью, специально для этого случая были придуманы электронные устройства с излучателем звука, который прикладывается к горлу и добавляет к шепоту голос. Нельзя сказать, чтобы результаты были потрясающими, так как голос получается тихий и слова бывает трудно разобрать, однако это лучше, чем ничего.

В зависимости от того, какие звуки и как произносит человек, может работать либо одна из полостей, либо обе полости. Носовые звуки произносятся при закрытом рте. Что же касается остальных звуков, то в их формировании принимают участие как носовая, так и ротовая полость. В самом деле, при насморке голос человека заметно изменяется — он начинает говорить «в нос». Из этого следует, что в формировании речи активно участвует и полость рта, и носовая полость.

Активные и пассивные органы речи

Все органы, участвующие в формировании речи, можно разделить на активные и пассивные органы. При этом в процессе речи активные органы совершают различные движения, формируя звуки. Вот активные органы речи:

· голосовые связки;

· язык;

· губы;

· мягкое небо;

· язычок;

· задняя спинка зева;

· нижняя челюсть.

Пассивные органы речи играют лишь вспомогательную роль. Они, в частности, определяют форму полостей, от которой, в свою очередь, зависят резонансные свойства этих полостей. Следующие органы речи являются пассивными:

· зубы;

· альвеолы;

· твердое небо;

· верхняя челюсть.

Заметим, что хотя пассивным органам речи отведена вспомогательная роль, их значение нельзя преуменьшать. Отсутствие, например, нескольких зубов нижней челюсти может привести к заметным дефектам речи (шепелявое произношение).

Работа речевого тракта

Итак, мы выяснили, из чего состоит речевой тракт человека. Поступая из легких и проходя через гортань, воздух проходит мимо голосовых связок. Колебания этих связок и создают звук, который мы слышим, когда человек говорит или поет. Многочисленные резонаторы, форму которых человек может изменять при помощи активных органов речи, формируют звуковую окраску голоса.

Теперь мы рассмотрим весь этот процесс подробнее, остановив внимание на некоторых деталях, существенных для систем синтеза и распознавания речи.

Артикуляция

Движения, выполняемые органами речи в процессе произнесения звуков, называются артикуляцией.

Артикуляция является сложным процессом, описание которой охватывает до дюжины различных признаков. Процесс артикуляции состоит из трех фаз [2]:

· приступ (экскурсия);

· выдержка;

· отступ (рекурсия).

Во время приступа артикуляции органы речи переходят из спокойного состояния в положение, необходимое для произнесения данного звука.

Во время фазы выдержки органы речи сохраняют свое положение, необходимое для произнесения текущего звука.

И, наконец, на фазе отступа органы речи переводятся в спокойное состояние.

Голосовые и шумовые звуки

Как мы уже говорили, колебания связок придают голосу звучание. В этом звучании выделяется так называемый основной тон, или тон основной частоты. Значение частоты основного тона зависит от размеров и степени натяжения связок.

У разных людей могут быть разные размеры связок, поэтому тональность голоса разных людей обычно различается. Регулируя натяжение связок в процессе артикуляции, человек может менять частоту основного тона.

Помимо голосовых, человек может издавать и шумовые звуки.

Все шумовые звуки можно разделить на два типа: турбулентные и импульсные [3].

Турбулентные звуки образуются при прохождении звука через сужения речевого тракта. Например, согласные с, ф, х, ц, ч, ш, щ произносятся «без голоса» с использованием турбулентных шумовых звуков.

Импульсные шумовые звуки образуются при резком изменении давления при прерывании струи воздуха. Это происходит, когда Вы произносите такие согласные, как п, к, т, д.

Гармоники

Возможно, Вы знаете, что звук идеально чистого тона содержит колебания только одной частоты. График изменения амплитуды звукового сигнала чистого тона может быть представлен в виде идеальной синусоиды.

На практике, однако, звуки с идеально чистым тоном в обиходе встречаются довольно редко. Если, например, скрипач, пианист и певец возьмут ноту «ля», то отличия в звучании будет заметно на слух, хотя тон звука во всех трех случаях будет одинаковый.

В чем тут дело?

А дело тут в том, что помимо тона основной частоты, в звуке инструментов и голосе всегда присутствуют так называемые гармоники. Гармоники представляют собой звуки других частот, отличных от основной частоты.

В общем случае любой звук можно представить в виде некоторого бесконечного набора абсолютно чистых звуков различных частот. Совокупность частот таких чистых звуков мы будем называть спектром звука.

Таким образом, практически в любом звуке помимо основной частоты присутствуют и другие частоты спектра, называемые гармоническими составляющими, или просто гармониками. От процентного соотношения гармонических составляющих зависит окраска звука.

Все вышесказанное относится, кстати, не только к звуку, но и к свету. Если Вы думаете, что красный сигнал светофора содержит только один какой-то оттенок красного цвета, то на самом деле это не так. Лампа накаливания излучает целый спектр, а красный фильтр светофора выделяет из этого спектра некоторый диапазон красных оттенков.

Другое дело — лазер. Его излучение является монохромным. Это означает, что в нем присутствует только один цвет. Лазерная указка, которую можно купить в любом киоске, излучает монохромный красный цвет, и в этом она сильно отличается от красного фонаря светофора.

Формантные частоты

Теперь Вы знаете, что даже в чистом, на первый взгляд, звучании ноты, может присутствовать целый спектр звуковых частот.

Голосовые органы человека добавляют к основному тону, формируемому голосовыми связками, дополнительные гармонические составляющие. Эти составляющие придают окраску голоса, по которой Вы, в частности, сможете узнавать речь знакомых Вам людей.

В результате исследований было установлено, что в образовании речи активно участвуют четыре частоты, образующиеся в резонансных полостях речевого тракта [1]. Эти частоты называются формантами.

В процессе артикуляции происходит постоянное изменение амплитуды формантных частот, которое можно обнаружить при помощи программ спектрального анализа. Такие программы позволяют развернуть спектр сигнала во времени, отображая его в трехмерном виде.

На рис 1-3 четко виден формантный состав гласных и и у при произнесении последовательности этих звуков [3]. При переходе от гласной и происходит смещение частоты форманты F2 c 2400 Гц на 784 Гц, а также одновременное ослабление формант F3 и F4.

Рис. 1-3. Формантный состав гласных и и у.

Как видите, в процессе артикуляции может изменяться как амплитуда, так и частота форматных составляющих звука. При этом, однако, количество самих формант в голосовых звуках остается постоянным и всегда равно 4.

Что же касается шумовых звуков, то в них затруднительно выделить формантные составляющие. Это видно на рис. 1-4, где приведен спектр звука х (представляющего собой турбулентный шум) [3].

Рис. 1-4. Спектр звука х

Забегая вперед, скажем, что современные системы распознавания речи выполняют спектральный анализ, который позволяет выделить из звуковых сигналов речи наиболее информативные составляющие. Это формантные частоты, а также шум. Помимо спектрального анализа используются и более совершенные методы, такие, например, как вейвлет-преобразования (о них мы расскажем позже в 5 главе).

Что же касается синтеза речи, то один из таких методов предполагает создание звуков речи из отдельных формантных составляющих с добавлением шума.

Иерархия лингвистических уровней

Все лингвистические понятия, рассмотренные далее в этой главе, специалисты в области языкознания относят к нескольким уровням. Иерархическая структура этих уровней показана на рис. 1-5.

Рис. 1-5. Иерархия лингвистических уровней

Рассмотрим эти уровни по отдельности.

Фонетический уровень

На фонетическом уровне определяются такие понятия, как фонемы и аллофоны. Это кирпичики, из которых строятся все лингвистические элементы более высокого уровня.

Фонемы

С точки зрения человека, наименьшей смысловой единицей является слово. Слово делится на слоги, но об этом мы задумывались только в младших классах школы. Что же касается науки, имеющей дело с распознаванием и синтезом речи, то здесь вводится другое понятие единицы звукового строя — фонемы.

Фонемы не отождествляются напрямую со словами или слогами. Они играют роль неделимых частиц, атомов языка и представляют собой последовательности звуков. Из фонем составляются все другие конструкции языка, такие как слоги и слова.

Фонемы обладают многочисленными признаками, которые можно использовать для их классификации и распознавания. В [2] в качестве примера приводятся следующие признаки:

· звонкость и глухость;

· твердость и мягкость;

· взрывность и фрикативность;

· отсутствие или присутствие назальности;

· переднеязычность и заднеязычности.

Такой признак, как звонкость, проявляется в звуке д, когда он входит в состав слова дом. В противовес этому, звук т в слове том проявляет глухость. Аналогично, наблюдается твердость звука д в слове дома и мягкость того же самого звука д в слове Дёма. Признак взрывности имеет звук д в слове дал, а признак фрикативности — звук з в слове зал. В слове дам наблюдается отсутствие назальности д, на в слове нам присутствует назальность звука н. В слове дам звук д является переднеязычным, а в слове гам звук г — заднеязычным.

Те признаки, изменение которых приводит к изменению фонемы, называются фонологически существенными признаками фонем.

Аллофоны

Ситуация с многообразием признаков фонем усложняется еще одним обстоятельством — одни и те же фонемы могут изменяться.

Например, гласная буква о произносится по-разному в словах вода и водяной. Вместе с тем, эти гласные являются представителями одной и той же фонемы о, так как они занимают одно и то же положение в звуковой структуре корневой морфемы вод и чередуются друг с другом в силу действующих в современном русском языке фонетических закономерностей.

Такие различные реализации фонем называются вариантами фонемы или аллофонами. При этом один из аллофонов, в котором свойства фонемы проявляются в наибольшей степени, играет роль главного варианта фонемы. Всего в русском языке насчитывается 43 фонемы (37 согласных и 6 гласных) [2]. К этому добавляются многочисленные аллофоны.

Фонологический уровень

На фонологическом уровне определяются комбинации фонем и аллофонов, реально встречающихся в человеческой речи. При этом учитывается, что различные комбинации фонем и аллофонов могут встречаться в речи с различной вероятностью.

Все звуки русского языка принято делить на гласные и согласные.

Гласных звуков и, соответственно, гласных фонем всего пять. Это а, и, о, у, э.

Что же касается согласных фонем, то автор статьи [6] насчитывает их 39: п, п’, б, б’, ф, ф’, в, в’, м, м’; т, т’, д, д’, ц, с, с’, з, з’, н, н’, л, л’; ш, щ, ж, ж’, ч, р, р’; j; к, к’, г, (г’), х, (х’), (g) (g’).

Здесь апостроф используется для различения звонких и глухих согласных. В круглых скобках находятся так называемые факультативные фонемы. Факультативная фонема g выделяется автором [6] в словах с Богом, Богу и Бога. Она считается факультативной (необязательной) так как может быть заменена фонемой г.

Заметим, что разные исследователи выделяют в русском языке разное количество фонем и аллофонов.

Морфологический уровень

На морфологическом уровне накладываются ограничения на структуру таких лингвистических элементов, как слоги и морфемы.

Мы знаем, что эти элементы состоят из фонем и аллофонов, причем при формировании речи добавляются различные фонетические процессы, о которых мы расскажем ниже в этой главе.

Однако сами по себе фонемы не несут никакой смысловой нагрузки. Это просто отдельные звуки речи, и ничего больше. Поэтому если система распознавания выделила из речи отдельные фонемы, она должна еще суметь составить из нее слова и предложения. А это непросто, особенно в случае слитной речи, наиболее удобной для человека.

Теперь мы расскажем о более крупных лингвистических единицах, из которых, в конечном счете, составляются осмысленные слова. Это слоги и морфемы.

Слоги

Слог — это минимальная фонетическая единица речевого потока, включающая в свой состав, как правило, один гласный звук с примыкающими к нему согласными звуками.

Слоги бывают открытыми, закрытыми, условно закрытыми, прикрытыми и неприкрытыми.

Открытые слоги заканчиваются на гласный звук, а закрытые — на согласный. При этом закрытые слоги нельзя открыть, например, рубль, морс. Условно-закрытые слоги можно открыть, изменяя слово, например, кот-коты, клоп-клопы. Прикрытые слоги начинаются с согласного звука, например, до-ма, мо-ло-ко. Неприкрытые слоги начинаются с гласного звука: о-ло-во, а-ре-на.

Сами по себе слоги могут нести, а могут и не нести смысловую нагрузку. Например, такой закрытый слов как рубль, несет вполне определенную смысловую нагрузку. Что же касается прикрытых слогов мо, ло и ко, то сами по себе они никакой смысловой нагрузки не несут.

Из этого следует, что системе распознавания недостаточно выделить из речи отдельные слоги. Само по себе это не дает системе возможности понять, о чем, собственно, идет распознаваемая речь…

Морфемы

Определение морфемы мы учили еще в школе. Согласно школьному определению, морфемой называется наименьшая значимая часть слова. Например, в слове кусочный можно выделить морфему кусоч.

В русском языке морфемы могут совпадать со слогами, а может быть и так, что морфема состоит из нескольких слогов (как, например, в морфеме ку-соч, состоящей из двух слогов). Однако есть языки, в которых слоги всегда совпадают с морфемами.

Сами по себе морфемы не могут образовывать предложения, но с их помощью создаются более крупные лингвистические единицы — лексемы.

Лексический уровень

Лексемой называется множество словоформ с общим лексическим значением. Лексема способна выступать членом предложения и образовывать предложения. Она может быть простой и составной. В первом случае лексема состоит из одного слова, а во втором — из нескольких, например, железная дорога, дом отдыха.

На лексическом уровне определяются слова и словоформы, которые возможны для данного языка. Действительно, комбинируя между собой морфемы и слоги, можно образовать бесконечное количество словоподобных конструкций, но в каждом конкретном языке далеко не все они будут наполнены каким либо значением.

Слова могут играть роль лексем, но не все слова являются лексемами. Служебные слова, такие, например, как из и бы не являются лексемами [2].

Системы распознавания речи могут пользоваться словарями лексем. С помощью этих словарей можно сделать процесс распознавания лексем надежнее, исключая заведомо ложные комбинации, не несущие смысловой нагрузки и появившиеся в результате ошибки механизма распознавания.

Семантический уровень

Высшим уровнем языка является семантика. Именно на этом уровне человеческий мозг отображает речевые конструкции на понятия и образы, устанавливая отношения между объектами и обозначающими их словами.

Наличие стройной системы семантических связей необходимо для создания систем распознавания речи. Только с ее помощью можно получить на выходе этой системы не простой набор слов, извлеченных из потока речи, а осмысленный набор понятий и отношений между ними, встречающихся в реальной жизни.

Предложения

На семантическом уровне определяется такое понятие, как предложение. Согласно определению, предложение — это грамматически оформленная по законам данного языка целостная единица речи, являющаяся главным средством формирования, выражения и сообщения мысли.

Но предложение — это не просто осмысленный набор слов и лексем. Предложение может передавать отношение говорящего человека к озвучиваемой мысли. Предложение может иметь особую интонацию, а также заключать в себе предикативность, то есть отношение сообщения к действительности, независимо от того, имеется в этом сообщении глагол или нет [2].

Только такие системы распознавания, которые способны выделять из речи предложения, можно считать достаточно совершенными. Ибо главным образом, именно в виде предложений человек формулирует свои мысли.

Эмоции

На наш взгляд, к семантическому уровню можно отнести не только словесное представление речи, но и эмоции, выражаемые человеком во время ее произнесения при помощи различных звуков и жестов.

Жесты, сопровождающие речь, могут дополнять и менять смысл произнесенных слов, а также придавать им совершенно другой смысл. Поэтому даже если компьютер будет идеально распознавать слова и составлять из них предложения, в некоторых случаях этого окажется недостаточно для полного понимания сказанного.

Возможно, когда-нибудь компьютеры смогут распознавать (или чувствовать?) человеческие эмоции при помощи видеокамеры или каким-либо другим способом, однако пока они с трудом справляются с задачей выделения из речи отдельных слов и предложений.

Фонетические процессы

Когда человек говорит, то произносимые слова составляется из фонем и аллофонов. Однако не все так просто. В процессе образования речи происходят различные фонетические процессы, усложняющие общую картину.

В результате исследований [2] были выделены несколько таких процессов:

· аккомодация;

· ассимиляция;

· диссимиляция;

· эпентезы;

· протезы;

· диерезы;

· фонетические чередования;

· традиционные чередования.

Учет этих процессов необходим для качественного синтеза речи. В противном случае мы получим «машинный» голос, напоминающий голос роботов из старых фильмов (кстати, в современных фантастических фильмах роботы и киберы говорят вполне сносно, их речь трудно или даже невозможно отличить от обычной человеческой речи).

Заметим, однако, что для качественного компьютерного синтеза речи необходимо учитывать и другие процессы, например, изменение тона речи, выделение слов паузами и другие процессы.

Далее мы кратко расскажем о перечисленных выше фонетических процессах. Более подробную информацию на эту тему Вы найдете в [2].

Аккомодация

Аккомодация (приспособление) возникает между согласными и гласными звуками, стоящими рядом. Аккомодация может приводить к появлению дополнительных звуков (так называемых глайдов).

Например, в произношении слова воля, можно расслышать очень короткий звук у между звуками в и о.

Ассимиляция

В процессе ассимиляции происходит артикуляционное и акустическое сближение звуков — согласных с согласными, гласных с гласными.

Например, слово отдать произносится как [аддать], в результате чего последующий звук д уподобляет предшествующий звук т, создавая ассимиляцию.

Диссимиляция

Диссимиляция представляет собой процесс, обратный ассимиляции. При взаимодействии согласных звуков с согласными, а также гласных с гласными эти звуки могут расподобляться.

Например, в разговорной речи слово трамвай произносится как [транвай]. Здесь происходит диссимиляция — два губно-губных звука м и в расподобляются, образуя, переднеязычный звук н и губно-губной звук в.

Эпентезы

Процессы с названием эпентезы (вставки) имеют диссимилятивную основу. В результате этого процесса происходит вставка звуков в или й между гласными.

Например, слово радио произносится как [радиво], слово скорпион — как [скорпиён], а слово какао — как [какаво]. Иногда происходит вставка очень короткого звука между двумя согласными, например, слово нрав может произносится как [ндрав].

Протезы

Протезы (надставки) — это разновидность эпентез, но они приставляются спереди к началу слова. Например, в южнорусских диалектах слово шла произносится как [ишла]. Здесь приставляемый звук и позволяет разгрузить группу начальных согласных. Другой пример — произнесение слова это как [ето].

Диерезы

Диерезы (выкидки) могут иметь ассимилятивную или диссимилятивную основу. В первом случае устраняются звуки между гласными, а во втором — выкидывается один из двух одинаковых или подобных слогов.

Например, слово честный произносится как [чесный], а минералология — как [минералогия].

Фонетические чередования

Фонетическими чередованиями называются изменения звуков в потоке речи, вызванные фонетическими процессами современного языка. Например, в словах воды-вода-водовоз (читается как [вады-вада-вадавоз]) чередуются ударные и безударные гласные, образуя различные варианты фонемы о. В словах друг-друга происходит чередование звонких и глухих согласных звуков. Эти слова читаются как [друк-друга], при этом фонема к является вариантом фонемы г.

Традиционные чередования

Традиционные чередования не обусловлены фонетической позицией, а складываются исторически. Они не имеют ни смысловой, ни фонетической причины появления, а сохраняются лишь в силу традиции. Например, чередования сон-сна, пень-пня, простой-упрощение, брюзга-брюзжать, запоздать-позже.

Интонация

Ранее мы уже говорили, что человек может менять высоту основного тона голоса, растягивая голосовые связки. Кроме этого, в широких пределах может изменяться громкость речи и ее темп. Набор этих характеристик называется интонацией речи.

В русском языке изменение интонации используется для выделения отдельных слов в предложении, для создания вопросительных предложений. В зависимости от того, каким именно образом меняется интонация, смысл одного и того же предложения может полностью измениться.

Вспомните задачку из детского мультфильма, где ученику предлагалось правильно поставить запятую в предложении «Казнить нельзя помиловать». Здесь возможны два исключающих друг друга варианта: «Казнить, нельзя помиловать» и «Казнить нельзя, помиловать».

Проговаривая это предложение, Вы сделаете паузу в том месте, где находится запятая. В первом варианте при помощи интонации будет выделено слово казнить, а во втором — помиловать, что и придает предложению противоположный смысл.

Многие компьютерные системы синтеза речи, преобразующие текстовые файлы в речь, не в состоянии корректно изменять интонацию речи (просто потому, что они не понимают смысла произносимого). Это может привести к тому, что синтезированная речь будет звучать монотонно, а смысл произносимых предложений окажется искажен.

Проблема правильной расстановки интонационных ударений не так проста, как может показаться на первый взгляд. Для выделения нужных слов компьютерная программа должна понимать смысл текста, так как даже знаков препинания может оказаться недостаточно, чтобы изменять интонацию слов надлежащим образом.

Ударные слоги

Вспомните, когда Вы учились читать по букварю и первым детским книгам, то в каждом слове было проставлено ударение. Делая во время чтения неправильные ударения в словах, можно до неузнаваемости исказить слово.

Что же представляет собой ударение?

Словесное ударение — это выделение одного или двух слогов в составе многосложного слова с помощью интонации. При ударении меняется сила, высота и длительность звуков. Ударение связывает звучание слова в единое целое, отделяя при этом одно слово от другого.

При этом в [2] различают динамическое, музыкальное и количественное ударение.

В результате динамического ударения происходит усиление звучания. Музыкальное ударение связано с изменением тона, а количественное — с изменением продолжительности звучания.

Динамическое ударение может привести к редукции, т.е. к ослаблению и изменению звучания безударных слогов.

Количественная редукция приводит к потере долготы и силы звучания, а качественная редукция приводит дополнительно к изменению тембра голоса (т.е. звуковой окраски голоса).

Дифонная модель

Одна из проблем, с которой сталкиваются разработчики систем распознавания речи, — выделение из слитного потока элементарных лингвистических единиц, таких как фонемы и аллофоны. Исследователи пытаются использовать различные модели, с помощью которых можно было бы выполнить такое выделение.

Рассмотренная ранее в этой главе фонемная модель — только одна из них. Другая модель, упомянутая в [5], называется дифонной моделью. В рамках этой модели вводится понятие элементарной речевой единицы — дифона. Дифоном называется звуковая единица, протяженная от середины одного звука до середины последующего.

Дифонная модель предполагает, что из речи можно выделить некие стационарные участки, на звучание которых не влияют соседние звуки. В середине этих стационарных участков проводится граница между дифонами. При этом, однако, общее количество дифонов в том или ином языке будет не меньше, чем общее количество аллофонов в это же языке.

В работе [5] дифонная модель речи сравнивается с фонемной моделью, причем сравнение получается не в пользу дифонной модели. В дифонной модели отмечается ряд недостатков.

Один из этих недостатков связан с созданием дифонной базы данных. В процессе ее наполнения диктор должен монотонно начитывать речевой материал, намеренно растягивая слова. Это делается для облегчения поиска границ дифонов.

Трудности возникают и при попытках использовать дифонную базу данных для синтеза речи. Дело в том, что если речь формируется посредством соединения дифонов, то в местах соединений образуются заметные перепады формантных частот. Образующиеся в результате спектральные разрывы заметны на слух — речь, «склеенная» из отдельных дифонов, звучит неестественно.

При попытке избавиться от этого недостатка за счет увеличения размеров дифонной базы данных и учета контекста расположения дифонов происходит усложнение алгоритмов формирования речевого сигнала.

В [5] отмечается, что фонемная модель не обладает этим недостатком. Правильный выбор аллофонов позволяет синтезировать речь без заметных на слух разрывов. А для создания базы данных фонем и аллофонов диктор должен читать текст естественным голосом.

Не исключено, что к настоящему времени помимо дифонной и фонемной модели речи созданы и другие модели.

Как мы слышим

Итак, мы рассказали Вам о строении органов речи человека. Вы узнали, как с помощью голосовых связок речь наполняется звуком, а также познакомились с фонемной и дифонной моделями речи.

Наибольший объем информации об окружающем мире человек (и животные) получает через глаза и уши. Наличие пары ушей обеспечивает «стереофонический слух», с помощью которого человек может быстро определять направление на источник звука.

Уши воспринимают колебания воздуха и превращают их в электрические сигналы, поступающие в мозг. В результате обработки по неизвестным нам пока алгоритмам эти сигналы превращаются в образы. Создание таких алгоритмов для компьютеров и есть научная задача, решение которой необходимо для разработки по-настоящему хорошо работающих систем распознавания речи.

В оставшейся части первой главы нам предстоит узнать, как работают органы слуха человека, позволяющие ему слышать речь и различные звуки. Изучение внутреннего уха помогает исследователям понять механизмы, с помощью которых человек способен распознавать речь, хотя это и не так просто. Как мы уже говорили, многие изобретения человек подсматривает у природы. Такие попытки предпринимаются и специалистами в области синтеза и распознавания речи.

Читателей, интересующихся деталями анатомии, мы отправляем к [7]. Там Вы найдете полное описание устройства уха и всевозможные медицинские подробности, далеко выходящие за рамки нашей книги.

Строение уха

Чтобы увидеть внутреннее строение человеческого уха, нужно обратиться к анатомическому атласу. На рис. рис. 1-6 мы показали в разрезе наиболее важные части человеческого уха.

Рис. 1-6. Внутренняя структура уха

Студенты-медики, изучавшие анатомию, хорошо знают, что анатомическое ухо делится на три части:

· наружное ухо;

· среднее ухо;

· внутреннее ухо.

Наружное ухо

Наружное ухо Вы можете изучить самостоятельно при помощи зеркала. Оно состоит из ушной раковины и наружного слухового прохода.

Функционально наружное ухо предназначено, во-первых, для улавливания и фокусировки звуковых волн (что нужно для улучшения слуха), и, во-вторых, для защиты среднего и внутреннего уха от механических повреждений. Что же касается преобразования звуковых колебаний воздуха в электрические импульсы, то наружное ухо не имеет к этому процессу никакого отношения.

Среднее ухо

Внутреннее строение среднего уха показано на рис. 1-7. Среднее ухо герметично отделено от наружного уха барабанной перепонкой. Таким образом, когда вода попадает к Вам в ухо, она может залить только наружное ухо, но дальше она не пройдет.

Толщина барабанной перепонки всего 0.1 мм, и ее легко повредить. Поэтому относитесь серьезно к советам врачей, и никогда не вставляйте в уши посторонние предметы.

Рис. 1-7. Среднее ухо

Внутренняя область среднего уха, называемая барабанной полостью, соединена при помощи евстахиевой трубы с носоглоткой. Это позволяет поддерживать давление внутри барабанной полости, равному внешнему атмосферному давлению.

Воздух попадает в барабанную полость через евстахиеву трубу, когда человек глотает. Пре резком изменении внешнего давления (например, в самолете) появляется давящее ощущение в ушах. Однако стоит сделать несколько глотков — и проблем исчезнет, так как давление уровняется через евстахиеву трубу.

В барабанной полости находится система так называемых слуховых косточек, состоящая из молоточка, наковальни и стремени. Эти косточки связаны между собой в единую подвижную цепь, состоящую из рычагов.

Задача системы слуховых косточек заключается в передаче звуковых колебаний от барабанной перепонки в область внутреннего уха.

Внутреннее ухо

Внутреннее ухо представляет наибольший интерес для специалистов по распознаванию речи, так как именно оно ответственно за преобразование звуковых колебаний в электрические импульсы.

Внутреннее ухо заполнено жидкостью. Оно состоит из двух частей: вестибулярного аппарата и улитки. Свое название улитка получила из-за своей формы — улитка свернута спирально, наподобие раковины обычной улитки.

Механизм функционирования внутреннего уха достаточно сложен и описан в [8]. Важно, что внутри улитки имеются чувствительные волоски, «подключенные» при помощи нервов к головному мозгу (рис. 1-8).

Рис. 1-8. Чувствительные волоски внутри улитки

Улитка разделена эластичной перегородкой на два канала, заполненных жидкостью. В этой перегородке и находятся упомянутые выше чувствительные волоски и нервы.

Частотный диапазон звуковых колебаний

Согласно [7], человеческое ухо воспринимает звуковые волны длиной примерно от 1,6 см до 20 м, что соответствует частотному диапазону 16-20 000 Гц. Животные могут слышать звуки более низкой или более высокой частоты. Так, например, дельфинам и летучим мышам доступно общение при помощи ультразвука, а китам — инфразвука. Поэтому человек не слышит весь частотный диапазон звуков, издаваемых этими и некоторыми другими животными.

Что же касается человеческой речи, то ее частотный диапазон 300-4000 Гц. Надо заметить, что разборчивость речи останется вполне удовлетворительной при ограничении этого диапазона до 300-2400 Гц. Когда мы занимались любительской радиосвязью, то добавляли в приемники соответствующие полосовые фильтры, улучшающие прием в условиях помех. Надо сказать, что частотный диапазон обычных телефонных каналов тоже не слишком широкий, однако это не сказывается заметным образом на разборчивость речи.

Сказанное означает, что для улучшения качества распознавания речи компьютерные системы могут исключить из анализа частоты, лежащие вне диапазона 300-4000 Гц или даже вне диапазона 300-2400 Гц.

Итоги главы

Прежде чем двигаться дальше, подведем некоторые итоги. В первой главе нашей книги Вы познакомились с внутренним строением речевых и слуховых органов человека. Изучение этого вопроса имеет большое значение для создания систем синтеза и распознавания речи.

Вы узнали, что звуки речи образуются в результате прохождения воздуха из легких через трахею в гортань, а далее в носовую и ротовую полость. Если при этом работают голосовые связки, образуется звучащая речь, если же связки не работают — то шепот.

Все органы речи делятся на активные и пассивные органы.

Активные органы, такие как голосовые связки, язык, губы, мягкое небо, язычок, задняя спинка зева и нижняя челюсть совершают движения и формируют спектр звуков. В процессе речи активные органы выполняют движения, называемые артикуляцией. Артикуляция состоит из фазы приступа, выдержки и отступа.

Пассивные органы только определяют форму внутренних полостей речевых органов, влияющую на резонансные свойства полостей.

Звуки речи принято делить на голосовые и шумовые звуки. Что касается шумовых звуков, то они образуются при произнесении некоторых согласных . Шумовые звуки бывают турбулентные и импульсные.

Голосовые звуки содержат не одну какую-либо частоту, а целый спектр частот. Исследователи установили, что в образовании речи участвуют четыре частоты, называемые формантными частотами. В процессе артикуляции изменяется амплитуда и частота формантных частот. Этот факт используется в системах синтеза и распознавания речи.

Мы рассмотрели лингвистические понятия, играющие важную роль при создании речевых систем. Эти понятия имеют иерархическую структуру. На нижнем уровне находится фонетический уровень, затем фонологический, морфологический, лексический, синтаксический и, наконец, семантический уровень.

На фонетическом уровне выделяются элементарные лингвистические элементы, составляющие речь — фонемы, а также их модификации, называемые аллофонами. Многочисленные признаки фонем и аллофонов используют для выделения фонем и аллофонов из слитной речи.

Фонологический уровень выделяет возможные в данном языке комбинации фонем и аллофонов, а морфологический — такие элементы, как слоги и морфемы, состоящие из фонем и аллофонов. На лексическом уровне определяются слова и словоформы, которые возможны для данного языка. И, наконец, на семантическом уровне человеческий мозг отображает речевые конструкции на понятия и образы, устанавливая отношения между объектами и обозначающими их словами.

Были рассмотрены фонетические процессы, участвующие в образовании речи, такие как аккомодация, ассимиляция, диссимиляция, эпентезы, протезы, диерезы, фонетические и традиционные чередования. При синтезе речи необходимо учитывать наличие всех этих процессов, иначе качество синтезированной речи будет низким.

При синтезе и распознавании речи необходимо учитывать изменение интонации речи, то есть ее громкости и темпа, наличие ударных и безударных слогов.

Помимо фонемной модели исследователи используют и дифонную модель. Дифоном называется звуковая единица, протяженная от середины одного звука до середины последующего. По сравнению с фонемной моделью дифонная модель обладает рядом недостатков, в частности, трудностью составления словаря дифонов.

Предметом изучения специалистов в области распознавания и синтеза речи является не только голосовые, но и слуховые органы человека. Человеческое ухо делится на наружное, среднее и внутреннее ухо. Наружно и среднее ухо передают звуковые колебания в улитку, расположенную во внутреннем ухе. Чувствительные волоски, расположенные в улитке, преобразуют колебания в электрические сигналы, поступающие по нервам в головной мозг.

Частотный диапазон звуковых колебаний, воспринимаемых человеком, составляет 16-20 000 Гц. Однако частотный диапазон речи уже и составляет 300-4000 Гц. Речь остается разборчивой при дальнейшем сужении частотного диапазона до 300-2400 Гц. Этот факт можно использовать в системах распознавания речи для снижения влияния помех.