Синтез и распознавание речи. Современные решения © А.В. Фролов, Г.В. Фролов, 2003 Когда человек говорит, то произносимые слова составляется из фонем и аллофонов. Однако не все так просто. В процессе образования речи происходят различные фонетические процессы, усложняющие общую картину. В результате исследований [2] были выделены несколько таких процессов: · аккомодация; · ассимиляция; · диссимиляция; · эпентезы; · протезы; · диерезы; · фонетические чередования; · традиционные чередования. Учет этих процессов необходим для качественного синтеза речи. В противном случае мы получим «машинный» голос, напоминающий голос роботов из старых фильмов (кстати, в современных фантастических фильмах роботы и киберы говорят вполне сносно, их речь трудно или даже невозможно отличить от обычной человеческой речи). Заметим, однако, что для качественного компьютерного синтеза речи необходимо учитывать и другие процессы, например, изменение тона речи, выделение слов паузами и другие процессы. Далее мы кратко расскажем о перечисленных выше фонетических процессах. Более подробную информацию на эту тему Вы найдете в [2]. Аккомодация (приспособление) возникает между согласными и гласными звуками, стоящими рядом. Аккомодация может приводить к появлению дополнительных звуков (так называемых глайдов). Например, в произношении слова воля, можно расслышать очень короткий звук у между звуками в и о. В процессе ассимиляции происходит артикуляционное и акустическое сближение звуков — согласных с согласными, гласных с гласными. Например, слово отдать произносится как [аддать], в результате чего последующий звук д уподобляет предшествующий звук т, создавая ассимиляцию. Диссимиляция представляет собой процесс, обратный ассимиляции. При взаимодействии согласных звуков с согласными, а также гласных с гласными эти звуки могут расподобляться. Например, в разговорной речи слово трамвай произносится как [транвай]. Здесь происходит диссимиляция — два губно-губных звука м и в расподобляются, образуя, переднеязычный звук н и губно-губной звук в. Процессы с названием эпентезы (вставки) имеют диссимилятивную основу. В результате этого процесса происходит вставка звуков в или й между гласными. Например, слово радио произносится как [радиво], слово скорпион — как [скорпиён], а слово какао — как [какаво]. Иногда происходит вставка очень короткого звука между двумя согласными, например, слово нрав может произносится как [ндрав]. Протезы (надставки) — это разновидность эпентез, но они приставляются спереди к началу слова. Например, в южнорусских диалектах слово шла произносится как [ишла]. Здесь приставляемый звук и позволяет разгрузить группу начальных согласных. Другой пример — произнесение слова это как [ето]. Диерезы (выкидки) могут иметь ассимилятивную или диссимилятивную основу. В первом случае устраняются звуки между гласными, а во втором — выкидывается один из двух одинаковых или подобных слогов. Например, слово честный произносится как [чесный], а минералология — как [минералогия]. Фонетическими чередованиями называются изменения звуков в потоке речи, вызванные фонетическими процессами современного языка. Например, в словах воды-вода-водовоз (читается как [вады-вада-вадавоз]) чередуются ударные и безударные гласные, образуя различные варианты фонемы о. В словах друг-друга происходит чередование звонких и глухих согласных звуков. Эти слова читаются как [друк-друга], при этом фонема к является вариантом фонемы г. Традиционные чередования не обусловлены фонетической позицией, а складываются исторически. Они не имеют ни смысловой, ни фонетической причины появления, а сохраняются лишь в силу традиции. Например, чередования сон-сна, пень-пня, простой-упрощение, брюзга-брюзжать, запоздать-позже. |