Синтез и распознавание речи. Современные решения

В главе 1 нашей книги мы рассмотрели внутреннее строение речевых и слуховых органов человека. Вы узнаете, как образуются звуки речи, о разделении этих звуков на голосовые и шумовые, а также о том, что такое формантные частоты.

Мы рассмотрим лингвистические понятия, играющие важную роль при создании речевых систем. Эти понятия имеют иерархическую структуру и классифицируются по уровням: фонетический, фонологический, морфологический, лексический, синтаксический и, наконец, семантический. Вы узнаете о физических параметрах речи, о фонемной и дифонной модели речи. Вы также познакомитесь с некоторыми анатомическими подробностями строения человеческого уха, интересными для разработчиков систем распознавания речи.

Из главы 2 Вы узнаете, как происходит преобразование звуковых колебаний воздуха в колебания электрического тока, а затем в поток чисел, удобный для компьютерной обработки. Мы расскажем о микрофонах, аналого-цифровых преобразователях, частотных фильтрах и некоторых способах снижения помех, мешающих процессу распознавания речи. Вторая глава научит Вас настраивать чувствительность микрофона. Такая настройка необходима для качественной работы систем распознавания речи.

В главе 3 мы рассказали о программных инструментальных средствах, с помощью которых можно выполнять самостоятельные исследованиям в области распознавания и синтеза речи. Мы рассказали об условно-бесплатной программе GoldWave, с помощью которой можно проводить осциллографические и спектральные исследования речевых сигналов, рассмотрели специализированную систему анализа речи SAS, доступную бесплатно с исходными текстами.

Мы также рассмотрели в главе 3 мощные профессиональные инструментальные средства, предназначенные для работы со звуком и разработанные компанией «Центр речевых технологий».

Глава 4 посвящена искусственным нейронным сетям, способным выполнять некоторые функции головного мозга человека, а также привели некоторую информацию о внутреннем «устройстве» мозга. Тема нейронных сетей весьма обширна, и ей посвящены многие книги. В нашей книге приведена только вводная информация, необходимая для знакомства с принципами работы искусственных нейронных сетей, рассказали об их устройстве, обучении и практических применениях без привлечения сложного аппарата математики. Мы также сделали ссылки на литературу, в которой нейронные сети рассмотрены подробно.

Глава 5 содержит информацию о существующих методов распознавания речи, описание которых нам удалось найти. Рассмотрены различные подходы к распознаванию речи — распознаванию элементов речи по образцу и выделение в речи лексических элементов, таких как фонемы, аллофоны, морфемы и т.д.

Выделены системы распознавания речи, требующие предварительного обучения, а также способные распознавать голос любого диктора без предварительного обучения. Рассмотрены методы выделения лексических элементов речи, основанные на дискретном преобразования Фурье, а также на применении вейвлет-преобразований.

В главе 6 описаны различные компьютерные программы и системы, в которых реализованы технологии распознавания речи и другие речевые технологии. Это системы голосового управления, голосового разграничения доступа, системы документирования устных выступлений, а также программы, предназначенные для диктовки текста. В частности, рассмотрены средства обработки голосовых команд и диктовки, реализованные в рамках офисного пакета программ Microsoft Office XP.

Данная глава может послужить руководством для выбора существующих программ и систем распознавания речи для использования в составе информационных систем компаний, а также для домашнего применения. Эти программы окажут существенную помощь людям с ограниченными возможностями.

В главе 7 мы рассмотрели методы, технологии и программы синтеза речи. Была выделена модель компилятивного синтеза и формантно-голосовая модель. Первая из этих моделей обеспечивает относительно высокое качества речи, однако пригодна для систем с небольшим словарным запасом. Словарный запас второй системы практически не ограничен, однако, качество синтезированной речи не слишком высокое.

Мы также рассказали о программах, в которых используются технологии синтеза речи. Такие программы могут читать содержимое файлов, окон приложений Microsoft Windows, получать и читать вслух сообщения электронной почты и выполнять множество других полезных голосовых функций.

В приложении к книге мы привели информацию, которая пригодится программистам при создании собственных средств для работы с речевой информацией. Мы рассказали о формате файла для обмена ресурсами (Resource Interchange File Format, RIFF), в котором обычно хранятся звуковые данные.