Синтез и распознавание речи. Современные решения © А.В. Фролов, Г.В. Фролов, 2003 Одна из проблем, с которой сталкиваются разработчики систем распознавания речи, — выделение из слитного потока элементарных лингвистических единиц, таких как фонемы и аллофоны. Исследователи пытаются использовать различные модели, с помощью которых можно было бы выполнить такое выделение. Рассмотренная ранее в этой главе фонемная модель — только одна из них. Другая модель, упомянутая в [5], называется дифонной моделью. В рамках этой модели вводится понятие элементарной речевой единицы — дифона. Дифоном называется звуковая единица, протяженная от середины одного звука до середины последующего. Дифонная модель предполагает, что из речи можно выделить некие стационарные участки, на звучание которых не влияют соседние звуки. В середине этих стационарных участков проводится граница между дифонами. При этом, однако, общее количество дифонов в том или ином языке будет не меньше, чем общее количество аллофонов в это же языке. В работе [5] дифонная модель речи сравнивается с фонемной моделью, причем сравнение получается не в пользу дифонной модели. В дифонной модели отмечается ряд недостатков. Один из этих недостатков связан с созданием дифонной базы данных. В процессе ее наполнения диктор должен монотонно начитывать речевой материал, намеренно растягивая слова. Это делается для облегчения поиска границ дифонов. Трудности возникают и при попытках использовать дифонную базу данных для синтеза речи. Дело в том, что если речь формируется посредством соединения дифонов, то в местах соединений образуются заметные перепады формантных частот. Образующиеся в результате спектральные разрывы заметны на слух — речь, «склеенная» из отдельных дифонов, звучит неестественно. При попытке избавиться от этого недостатка за счет увеличения размеров дифонной базы данных и учета контекста расположения дифонов происходит усложнение алгоритмов формирования речевого сигнала. В [5] отмечается, что фонемная модель не обладает этим недостатком. Правильный выбор аллофонов позволяет синтезировать речь без заметных на слух разрывов. А для создания базы данных фонем и аллофонов диктор должен читать текст естественным голосом. Не исключено, что к настоящему времени помимо дифонной и фонемной модели речи созданы и другие модели. |