Синтез и распознавание речи. Современные решения. Дифонная модель.

Синтез и распознавание речи. Современные решения

Дифонная модель

Одна из проблем, с которой сталкиваются разработчики систем распознавания речи, — выделение из слитного потока элементарных лингвистических единиц, таких как фонемы и аллофоны. Исследователи пытаются использовать различные модели, с помощью которых можно было бы выполнить такое выделение.

Рассмотренная ранее в этой главе фонемная модель — только одна из них. Другая модель, упомянутая в [5], называется дифонной моделью. В рамках этой модели вводится понятие элементарной речевой единицы — дифона. Дифоном называется звуковая единица, протяженная от середины одного звука до середины последующего.

Дифонная модель предполагает, что из речи можно выделить некие стационарные участки, на звучание которых не влияют соседние звуки. В середине этих стационарных участков проводится граница между дифонами. При этом, однако, общее количество дифонов в том или ином языке будет не меньше, чем общее количество аллофонов в это же языке.

В работе [5] дифонная модель речи сравнивается с фонемной моделью, причем сравнение получается не в пользу дифонной модели. В дифонной модели отмечается ряд недостатков.

Один из этих недостатков связан с созданием дифонной базы данных. В процессе ее наполнения диктор должен монотонно начитывать речевой материал, намеренно растягивая слова. Это делается для облегчения поиска границ дифонов.

Трудности возникают и при попытках использовать дифонную базу данных для синтеза речи. Дело в том, что если речь формируется посредством соединения дифонов, то в местах соединений образуются заметные перепады формантных частот. Образующиеся в результате спектральные разрывы заметны на слух — речь, «склеенная» из отдельных дифонов, звучит неестественно.

При попытке избавиться от этого недостатка за счет увеличения размеров дифонной базы данных и учета контекста расположения дифонов происходит усложнение алгоритмов формирования речевого сигнала.

В [5] отмечается, что фонемная модель не обладает этим недостатком. Правильный выбор аллофонов позволяет синтезировать речь без заметных на слух разрывов. А для создания базы данных фонем и аллофонов диктор должен читать текст естественным голосом.

Не исключено, что к настоящему времени помимо дифонной и фонемной модели речи созданы и другие модели.