Синтез и распознавание речи. Современные решения

В то время как задача распознавания речи очень сложна и решена лишь отчасти, задача синтеза речи намного проще (хотя и там есть немало проблем, ждущих своего решения).

В обиходе Вам наверняка приходилось сталкиваться с различными системами синтеза речи. Вот несколько примеров.

Служба 100 Московской городской телефонной сети, сообщающая по телефону текущее время, использует синтезатор речи. Диктор наговаривает цифры и такие слова, как «часов», «минут» и «секунд», а компьютер формирует речевое представление текущего времени.

Технологии синтеза речи применяются в метро при объявлении остановок.

Владельцы мобильных телефонов могут общаться с автоматической сервисной службой для определения остатка средств на счету, переключения тарифных планов, подключения или отключения услуг и пр. Сервисная служба общается голосом с применением технологий синтеза речи.

Выпущено немало детских игрушек, «говорящих» человеческим голосом. В этих игрушках также применяются простейшие синтезаторы речи или цифровые магнитофоны.

Синтезаторы речи применяются в различных голосовых системах предупреждения, устанавливаемых в автомобилях и самолетах. Такие системы позволяют привлечь внимание человека к возникновению той или иной критической ситуации, не отвлекая его от процесса управления автомобилем, самолетом или другим аналогичным средством.

Также разработано немало компьютерных программ, способных читать голосом содержимое текстовых файлов или текст, расположенный в окнах приложений. Эти системы могут оказаться полезными тем, у кого ослаблено или полностью отсутствует зрение.

Две модели синтеза речи

Все существующие в настоящее время методы синтеза человеческой речи основаны на использовании двух моделей — модели компилятивного синтеза и формантно-голосовой модели [3].

Рассмотрим вкратце особенности этих моделей.

Модель компилятивного синтеза

Модель компилятивного синтеза предполагает синтез речи путем конкатенации (составления) записанных образцов отдельных звуков, произнесенных диктором.

При использовании этой модели составляется база данных звуковых фрагментов, из которых в дальнейшем будет синтезироваться речь.

На первый взгляд этот подход не должен вызывать особых затруднений.

Действительно, пользуясь микрофоном и звуковым редактором, например, редактором GoldWave, описанным в 3 главе нашей книги, Вы можете создать набор файлов различных звуковых фрагментов, а затем сохранить их содержимое в базе данных.

Создавая звуковые WAV-файлы с текстовыми сообщениями, можно озвучить операционную систему Microsoft Windows и многие ее приложения, такие как почтовые программы, инструментальные средства разработки и пр.

Если Вы умеете создавать программы, то для Вас не составит труда сделать простейший синтезатор речи, составляющий фразы из отдельных фрагментов. Информацию, необходимую для составления программ, работающих со звуком, можно найти, например, в [10], а также в библиотеке MSDN (http://msdn.microsoft.com).

Модель компилятивного синтеза подходит, главным образом, только в простейших случаях, когда синтезатор должен произносить относительно небольшой и заранее известный набор фраз. При этом обеспечивается довольно высокое качество речи. Впрочем, этот факт не слишком удивителен, если вспомнить, что для синтеза используется естественная человеческая речь.

Тем не менее, на стыке составляемых звуковых фрагментов возможны интонационные искажения и разрывы, заметные на слух. Кроме того, создание крупной базы данных звуковых фрагментов, учитывающей все особенности произношения фонем и аллофонов с разными интонациями, представляет собой сложную и кропотливую работу.

Формантно-голосовая модель

Формантно-голосовая модель основана на моделировании речевого тракта человека, о котором мы подробно рассказывали в 1 главе нашей книги.

Эта модель может быть реализована с применением нейронных сетей и допускает самообучение. К сожалению, ввиду сложности точного моделирования особенностей речевого тракта, а также учета интонационной модуляции речи формантно-голосовая модель обладает относительно низкой точностью синтезируемых звуков речи. Тем не менее, современные программы синтеза речи, построенные с использованием этой модели, синтезируют вполне разборчивую речь и могут применяться в ряде случаев.

Заметим, что системы голосового предупреждения о возникновении аварийных ситуаций лучше строить с использованием модели компилятивного синтеза, так как разборчивость речи в таких системах выходит на передний план.

Что же касается «бытовых» синтезаторов речи, то в них можно с успехом применять и форманто-голосовую модель. Схематически эта модель показана на рис. 7-1 [3].

Рис. 7-1. Формантно-голосовая модель синтеза речи

При построении модели в [3] использовались данные об артикуляционном аппарате человека, а также данные фонетики и лингвистики. Как видите, в качестве исходного сигнала применяется комбинация голосового источника и генератора шума. Прерыватель и резонансное устройство моделирует работу речевого тракта. В результате этого моделирования образуется излучаемый звук речи.

При этом для достижения компромисса между качеством модели и ее сложностью были выбраны следующие основные параметры исследуемой системы:

· частота основного тона;

· частота шума;

· количество формант;

· центральная частота каждой форманты;

· вклад каждой форманты.

Частота основного тона определяет высоту голоса. Этот параметр не должен вызывать у Вас никаких вопросов. Что же касается частоты шума, то здесь нужно сделать пояснение.

Как замечает автор работы [3], образование шума представляет собой достаточно сложный процесс, зависящий от многих факторов, таких как давление и скорость воздушной струи, геометрической формы воздушного тракта, акустических свойств материала и пр. Чтобы полностью смоделировать шум речи на физическом уровне, необходимо создать точную модель речевого аппарата человека, что представляет собой очень сложную задачу.

В качестве альтернативы автор работы [3] использует белый шум, спектр которого распределен по некоторому закону (например, по Гауссу) относительно некоторой центральной частоты. При этом закон распределения подбирается экспериментально, а частотой шума в этом случае является упомянутая выше центральная частота.

Количество активных формант, участвующих в образовании речи, выбирается в [3] экспериментально, причем в качестве ориентировочного значения используется 4.

Так как форманта представляет собой резонанс в речевом тракте, у неё есть частота резонанса и огибающая. Вид огибающей также определяется экспериментально, в первом приближении это Гауссово распределение.

Вклад каждой форманты определяет, насколько сильно форманта воздействует на основной сигнал.

Все приведенные выше параметры, кроме количества формант, изменяются в процессе образования речи для получения различных звуков. Хотя для более качественного синтеза речи необходимо строить более детальную модель, приведенные в [3] параметры достаточны для того, чтобы синтезированные звуки были разборчивы.

Синтез речи с помощью нейронной сети

В [3] описан процесс синтеза речи с использованием нейронной сети. Структура системы SAS, содержащей в своем составе эту сеть, была представлена в главе 5 на рис. 5-2.

Для исследования формантно-голосовой модели синтеза речи был создан инструмент Модель синтеза, в котором ручным заданием параметров можно синтезировать практически любой гласный или шипящий звук. Также в [3] приводятся уже готовые образцы некоторых звуков (в форме параметров модели).

Алгоритм синтеза речи

Процесс синтеза речи выглядит следующим образом.

Уровни выходов нейронов эффекторного слоя нейросети при помощи карты эффекторов (рис. 5-2) преобразуются в значения выбранных параметров модели синтеза. Карта эффекторов определяет соответствие между каждым нейроном эффекторного слоя и конкретным параметром модели синтеза, а также предельные значения каждого параметра. Число эффекторов и число параметров модели может не совпадать. Если параметру не соответствует ни один эффектор, используется некоторое фиксированное значение (значение по умолчанию).

Далее по текущему состоянию модели синтезируется сигнал в пространстве частот: генерируется линейка частот, представляющих голосовой источник. На эту линейку частот накладывается формантная структура (резонансы). Для синтеза шума используется генератор случайной амплитуды и фазы.

На последнем этапе выполняется обратное преобразование Фурье для получения звуков речи.

При обучении системы формировались нейронные ансамбли для каждого звука из обучающей последовательности а, б, в, г, д. Затем проводилось обучение синтезу. В результате в эффекторном слое установились правильные связи с символьным слоем.

Система успешно обучилась синтезу — синтезируемые звуки в точности соответствуют тонам из обучающей выборки. На рис. 7-2 показана обучающая выборка, а на рис. 7-3 — результат синтеза.

Рис. 7-2. Обучающая выборка

Рис. 7-3. Результат синтеза

На рис. 7-4 показан результат обучения синтезу звуков а,и,о,у.

Рис. 7-4. Результат обучения синтезу

Как видите, спектрограммы синтезированных звуков близки к спектрограммам оригинальных звуков, хотя видны и отличия.

Более подробную информацию об условиях проведения экспериментов Вы найдете в [3].

Ограничения использованного алгоритма

Автор работы [3] отмечает, что в этом алгоритме узким местом является размер окна дискретного преобразования Фурье ДПФ. В данной модели синтезируются статичные звуки, при этом не происходит изменение параметров в процессе синтеза.

В реальной же речи параметры звука меняются при переходе от одного звука к другому, причем меняются непрерывно. Очевидно, при использовании окон ДПФ такой результат получить невозможно — в пределах окна параметры звука меняться не будут. Теоретически благодаря полной обратимости дискретного преобразования Фурье возможно получить спектр для любого сигнала, в том числе и с динамически меняющимися параметрами.

Поэтому для генерации звука с изменяющимися параметрами нужно сокращать размер окна ДПФ или брать не весь сгенерированный кадр, а только его часть (не забывая при этом синхронизировать фазу сигнала). В идеале размер кадра можно свести к одному отсчету дискретизации по времени. Этот способ генерации речи дает лучшие результаты по сравнению с ДПФ, но работает гораздо медленнее ДПФ. В системе SAS можно выбрать используемый способ генерации.

Программные реализации синтезаторов речи

Далее в этой главе мы расскажем о нескольких программных реализациях синтезаторов речи. Большинство таких синтезаторов разработано для платформы Microsoft Windows и пользуется речевым программным интерфейсом Speech API, разработанным компанией Microsoft.

Мы уже говорили, что в комплекте с операционной системой Microsoft Windows не поставляются средства распознавания или синтеза речи. Однако разработчики могут создавать такие средства, используя при этом упомянутый выше программный интерфейс Speech API.

Что же касается пользователей, то для того чтобы снабдить компьютер речевым интерфейсом, необходимо установить на него речевые программные модули (speech engine). Как Вы знаете, в составе пакета офисных программ Microsoft Office XP поставляются такие модули, но не для русского языка.

Чтобы описанные в этой главе программные синтезаторы речи смогли говорить на русском языке, Вам необходимо загрузить из Интернета и установить русские речевые модули. Для синтезаторов речи список таких модулей Вы найдете на странице http://www.vector-ski.ru/vecs/govorilka.html. Что же касается распознавания русской речи, то пока авторам не известно о существовании соответствующих речевых модулей.

Синтезатор речи Govorilka

В этом разделе мы рассмотрим одну из бесплатных программ синтезаторов речи с назавнием Govorilka (рис. 7-5), созданную Антоном Рязановым. Самую новую версию этой программы Вы сможете загрузить из Интернета по адресу http://vecs.nm.ru.

В зависимости от установленных речевых модулей, программа Govorilka может читать текст разными голосами и на разных языках, в том числе и на русском языке.

Рис. 7-5. Синтезатор речи Govorilka

Исходный текст для чтения может быть загружен из текстового файла, файла RTF и универсальный буфер обмена операционной системы Clipboard. Для загрузки текста можно также перетащить значок текстового файла на значок программы Govorilka или в окно этой программы. Вы можете и просто набрать новый текст в окне программы при помощи клавиатуры.

Программа способна читать файлы с символами кириллицы в кодировке операционной системы Microsoft Windows или MS-DOS. Выбор нужной кодировки выполняется при помощи кнопок WIN и DOS, расположенных в инструментальной панели программы.

Размер читаемого текста практически не ограничен. Загруженный однажды текст, а также текущая позиция при чтении запоминается программой. Таким образом, если текст большой, Вы можете слушать его по частям, даже выключая на время компьютер.

Для запуска текста, загруженного в окно программы, достаточно щелкнуть кнопку Читать текст (с изображением треугольника зеленого цвета) или нажать клавишу F5. прочитанный текст выделяется синим цветом.

С помощью кнопок Стоп (клавиша F6) и Пауза/Продолжить (клавиша F8) можно остановить, временно приостановить или продолжит чтение текста.

Можно читать как весь загруженный текст, так и любой его фрагмент. Для чтения фрагмента текста этот фрагмент нужно выделить мышью или при помощи клавиатуры, а затем щелкнуть кнопку Читать текст.

Программа позволяет сохранить результаты синтеза речи, записав синтезированную речь в файл формата WAV или MP3. Заметим, что запись речи в файл происходит не в реальном времени, а ускоренно. В самом деле, для выполнения операции записи речи в файл не требуется проговаривать текст, что необходимо делать со скоростью, привычной для человека.

Для коррекции произношения отдельных слов в программе Govorilka предусмотрен легко пополняемый словарь произношений.

Установка программы

Программа Govorilka будет работать на любом компьютере с операционной системой Microsoft Windows 2000/XP. Для использования этой программы в операционных системах Microsoft Windows 95/98/NT необходимо предварительно установить программный интерфейс Speech API, доступный для бесплатной загрузки на сайте компании Microsoft (http://www.microsoft.com).

Компьютер должен быть оборудован звуковым адаптером, так как иначе ему нечем будет говорить.

Кроме этого, необходимо загрузить из Интернета и установить программный модуль преобразования текста в речь. Как мы уже говорили, ссылки на такие модули можно найти на странице http://www.vector-ski.ru/vecs/govorilka.html.

Выполнив описанные выше подготовительные действия, загрузите дистрибутивный файл программы Govorilka из Интернета по адресу http://vecs.nm.ru и запустите на выполнение.

На экране появится окно программы. Если в заголовке этого окна после слова «Говорилка» не будет показано название речевого модуля, а при попытке чтения на экране появится сообщение «Speech Engine not initialized», нужно проверить, установлен ли программный интерфейс Speech API, а также программный модуль преобразования текста в речь.

Обратите внимание на рис. 7-5. В заголовке окна программы Govorilka отображается название модуля преобразования текста в речь L&H TTS3000, а также имя Svetlana, обозначающее голос говорящего. Позже мы расскажем Вам о том, как можно сменить модуль преобразования текста в голос, а также изменить параметры голоса. Обычно пользователю предоставляется выбор среди нескольких мужских и женских голосов.

Настройка программы

Для улучшения качества синтезированной речи и изменения ее характеристик можно выполнить настройку программы Govorilka. Для этого щелкните кнопку Дополнительно, расположенную в правой верхней части инструментальной панели программы. После этого в окне программы появятся новые элементы управления (рис. 7-6).

Рис. 7-6. Расширенные параметры синтезатора речи Govorilka

В списке Голос можно выбрать один из нескольких голосов. Учтите, что в зависимости от того, какие речевые программные модули установлены на компьютере, будут доступны разные голоса, способные говорить на разных языках. Сама по себе программа Govorilka (как и другие аналогичные программы) не содержат ограничений на язык чтения текста, но такие ограничения, разумеется, есть в речевых программных модулях.

В списке Воспроизведение можно выбрать строки Звуковая плата или Записывать в файл. В первом случае программа Govorilka будет произносить текст, а во втором — запишет речь, синтезированную из текста, в файл (рис. 7-7).

Рис. 7-7. Запись голоса в файл

Перед записью речи в файл нужно выбрать имя файла в поле, расположенном справа от списка Воспроизведение. Там же есть и кнопки Воспроизвести записанный файл и Остановить воспроизведение, с помощью которых можно проверить результат записи.

Движки Скорость, Высота и Громкость позволяют менять характеристики синтезированной речи — скорость произнесения слов, высоту голоса и громкость голоса, соответственно. С помощью кнопки Default, расположенной справа от этих движков, можно установить характеристики речи, принятые по умолчанию.

Непосредственно над текстовым окном расположены три кнопки, обозначенные цифрами 1, 2 и 3. С помощью этих кнопок можно работать по очереди с тремя различными текстами.

При помощи кнопок Шрифт и Фон пользователь может изменить шрифт текста и цвет фона, на котором этот текста отображается.

И, наконец, флажки Слежение и Подсветка задают режим отображения текста во время его чтения. Если отмечен первый из этих флажков, программа прослеживает чтение текста, сохраняя в памяти текущую позицию. Второй флажок позволяет включить или отключить подсветку прочитанного текста.

Щелкнув кнопку Настройки, Вы получите доступ к диалоговой панели Настройки Govorilka, показанной на рис. 7-8.

Рис. 7-8. Диалоговое окно Настройки Govorilka

Здесь можно выбрать звуковой адаптер (список Звуковая плата), а также указать программе папку для хранения временных файлов (элемент управления Временная папка).

При помощи списка Скорость можно задать скорость записи синтезированного голоса в звуковой файл.

Элементы управления, расположенные в группе MP3 Encoder, нужны для определения параметров создаваемых звуковых файлов формата MP3.

Работа со словарем

Важным компонентом программы Govorilka является словарь. При помощи этого словаря можно изменять произношение определенных слов, словосочетаний и различных комбинаций символов.

Словарь создается для каждого речевого программного компонента, установленного на компьютере.

Чтобы добавить в словарь новое слово или любой фрагмент текста, его нужно выделить, а затем щелкнуть правой клавишей мыши и выбрать из контекстного меню строку Словарь. На экране появится диалоговое окно редактирования словаря, показанное на рис. 7-9.

Рис. 7-9. Словарь синтезатора речи Govorilka

В поле Текст будет записано выделенное Вами слово, словосочетание или последовательностью символов, для которых нужно определить произношение. В поле Читать как нужно ввести произношение слова в виде транскрипции из русских букв.

Результат можно проверить, щелкнув кнопку Проба. Если произношение Вас удовлетворяет, добавьте новое слово в словарь при помощи кнопки Добавить в словарь.

Можно подготовить словарь в текстовом файле с расширением имени DIC, а затем загрузить его для просмотра и редактирования при помощи кнопки Добавить из (рис. 7-9). Содержимое словаря будет показано в средней части окна Словарь (рис. 7-10).

Если флажок Обновление не установлен, то в словарь будут добавлены только новые слова. Если же установить этот флажок, то при импорте существующие слова будут заменены новыми.

Рис. 7-10. Импортированный словарь

Чтобы отредактировать произношение слова, щелкните его дважды в окне Словарь, а затем измените содержимое поля Читать как. Проверив произношение кнопкой Проба, сохраните результат при помощи кнопки Добавить в словарь.

Вот сокращенный пример словаря программы Govorilka (пропуски отмечены многоточием):

$*Я*=я
глаза=глазаа
зубов=зу бов
*http://*=эйч тити пи
html=эйч ти эм эл
*.html=эйч ти эм эл
*www*=вэвэ вэ
*www.*=вэвэ вэ
*.ru= точка ру
*.com= точка ком
…
*a*=а
*b*=б
*c*=к
*d*=д
*e*=е
*f*=ф
…
*x*=кс
*y*=и
*z*=з
…
грязи=гри зи
Сергию=Серги ю
Язык=язык
$*Ю*=ю
…
расшторенными=раштореннми
приземлю=при зи млю
раздолбать=раздал бать
раздолбаешь=раздал баешь
проволочек=проооволочек
проволочки=проооволочки
…
позеленением=позеленеэнием
прогнусавил=прогнусаавил
сломя=сломяа
тютелька=тюутелька
тютельку=тюутельку
гетерозиготный=геэтеро зиготный
хромосомом=хромосоомом
черезвычайные=черезвычаайные
самозародиться=саамо зародиться
Помощник=Помошник

В документации к программе Govorilka описан формат словаря и правила, согласно которым обозначается произношение слов.

Строки файла словаря имеют следующий формат:

[$][*]текст[*]=произношение

Здесь текст задает текст, для которого необходимо определить новое произношение. Произношение определяется как последовательность символов.

Символ $ предписывает разделять прописные и строчные буквы. Символ шаблона * указывает, что перед текстом или после него может встречаться любая последовательность символов. Для установки ударения в строку произношения нужно вставить пробел или двойную гласную букву.

В справочной системе программы Govorilka имеются многочисленные примеры, с помощью которых Вы научитесь подготавливать строки словаря.

Программа ATTS

Если Вам нужна программа для чтения текстового содержимого окон приложений Windows на английском языке, то Вы можете испытать в работе небольшую утилиту ATTS. Вы можете загрузить самую новую версию этой программы из Интернета по адресу http://www.text-to-speech.net.

Работа этой программы основывается на речевых технологиях компании Microsoft. Программа ATTS (рис. 7-11) может читать содержимое универсального буфера обмена, а также содержимое текстовых файлов. Для чтения можно выбрать один из 27 голосов. К сожалению, нам не удалось заставить говорить эту программу на русском языке.

Рис. 7-11. Главное окно программы ATTS

Работа с программой

Пользоваться программой ATTS очень просто — достаточно запустить ее и выделить текст мышью в любом окне операционной системы Microsoft Windows или ее приложений, допускающем такое выделение. Затем надо нажать комбинацию клавиш Control+C. Заметим, что при этом текст будет также скопирован в универсальный буфер обмена Clipboard.

Текст читает маленький зеленый зверек (рис. 7-12).

Рис. 7-12. Программа ATTS в работе

Для управления процессом чтения можно использовать кнопки, расположенные в нижней части главного окна программы ATTS или контекстное меню (рис. 7-13). Для доступа к контекстному меню нужно щелкнуть окно (или зверька) правой клавишей мыши.

Рис. 7-13. Контекстное меню программы ATTS

С помощью строки Read Clipboard можно запустить чтение текстового содержимого универсального буфера обмена Clipboard. Строка Stop позволяет остановить чтение, а строка Play — запустить его снова. Если нужно вернуться к чтению ранее прочитанного текста, воспользуйтесь строкой Previous.

Настройка программы ATTS

Настраивая программу ATTS, Вы можете выбрать не только голос, но и внешний вид программы.

Для доступа к меню настроек щелкните окно программы ATTS правой клавишей мыши, а затем выберите из контекстного меню, показанного на рис. 7–13, строку Options. При этом Вы увидите меню, показанное на рис. 7-14.

Рис. 7-14. Меню Options программы ATTS

Чтобы выбрать голос, раскройте в меню Options меню второго уровня Tones. Вы увидите список голосов, которым программа ATTS может произносить текст (рис. 7-15). Здесь есть мужские и женские голоса, модифицированные для различной обстановки. Можно подобрать голос, звучащий как в нормальных условиях, так и в специальных — по телефону, в зале, на открытом пространстве или стадионе.

Рис. 7-15. Выбор голоса

Для более тонкой настройки параметров синтезатора речи выберите из меню Options строку Preferences. На экране появится диалоговое окно, показанное на рис. 7-16.

Рис. 7-16. Настройка параметров синтезатора речи программы ATTS

Здесь с помощью движка Pitch Вы можете настроить высоту тона речи.

Список Voice Type позволяет выбрать один из трех типов голоса:

· Normal — обычный;

· Monotone — монотонный;

· Whisper — шепот

С помощью элементов управления Width и Height можно задавать размеры говорящего зверька. Кстати, Вы можете выбрать другой персонаж при помощи строки Characters меню Options (рис. 7-14).

Для тех, кто любит изменять внешний вид программы по своему вкусу, понравится возможность выбора скина программы ATTS, доступная через строку Skins только что упомянутого меню Options.

На рис. 7-17 и 7-18 мы показали главное окно программы ATTS, оформленное в стиле Apple и Phoenix, соответственно.

Рис. 7-17. Окно программы ATTS в стиле Apple

Рис. 7-18. Окно программы ATTS в стиле Phoenix

При желании Вы можете загрузить дополнительные скины или изображения персонажей с сайта программы http://www.text-to-speech.net.

Программа Speak & Mail 2000

Если нужно добавить в операционную систему речевой интерфейс без возможности диктовки текста, то, возможно, программа Speak & Mail 2000, созданная компанией Shadisoft.com, Вам вполне подойдет (рис. 7-19).

В отличие от только что рассмотренной программы ATTS, программа Speak & Mail 2000 может читать тексты на русском языке. Для этого, разумеется, необходимо установить русский речевой модуль синтеза речи. Список ссылок на сайты с такими модулями можно найти в Интернете, например, по адресу http://www.vector-ski.ru/vecs/govorilka.html..

Хотя программа Speak & Mail 2000 не бесплатна, ее стоимость не превышает 50 долларов США. Вы можете загрузить демонстрационную версию этой программы на сайте компании по адресу http://www. shadisoft.com. Размер дистрибутивного файла программы равен примерно 9 Мбайт.

Процедура установки программы Speak & Mail 2000 очень проста. Вам нужно только запустить на выполнение загруженный дистрибутивный файл и один раз перезагрузить операционную систему. После этого можно приступать к работе с программой.

Рис. 7-19. Главное окно программы Speak & Mail 2000

Так же как и упомянутая выше программа ATTS, программа Speak & Mail 2000 общается с пользователем от имени забавного персонажа (обозначаемого в терминах документации на программу как character). Пользователь может менять персонажей, загружая их при необходимости через Интернет с сайта компании Shadisoft.com.

На рис. 7-20 мы показали персонажа, выбранного по умолчанию после установки программы.

Рис. 7-20. Персонаж программы Speak & Mail 2000

Щелкнув изображение персонажа правой клавишей мыши, пользователь получат доступ к контекстному меню, с помощью которого можно выполнять самые нужные операции. Позже мы расскажем об этом подробнее.

Возможности программы

Программа Speak & Mail 2000 комбинирует в себе функции синтезатора речи и системы распознавания голосовых команд.

Персонаж программы может читать голосом содержимое текстовых файлов и буфера универсального обмена Clipboard, получать с почтового сервера провайдера Вашу почту и читать ее вслух, а также проигрывать содержимое предварительно записанных звуковых файлов в формате WAV.

Персонаж может время от времени комментировать Ваши действия, сообщать текущее время и дату, шутить, трубить в горн для привлечения внимания, напоминать Вам о необходимости сделать что-либо, и развлекать Вас другими способами. Если персонаж покажется Вам чересчур назойливым, Вы всегда сможете изменить его настройки.

Вы можете настроить программу Speak & Mail 2000 таким образом, чтобы она напоминала Вам голосом о необходимости выполнять различные дела по составленному Вами графику.

Предусмотрена также возможность голосового общения с персонажем программы.

Таким образом, программа Speak & Mail 2000 будет Вашим помощником в работе с компьютером, с которым можно общаться голосом, не отвлекаясь от выполнения других дел.

В комплекте с программой поставляется документация в виде файла формата PDF (на английском языке). Кроме того, программа снабжена справочной системой, работающей в режиме on-line при наличии соединения с Интернетом.

Чтение текста и проигрывание звуковых файлов

Вначале мы расскажем Вам о том, как программа Speak & Mail 2000 может читать текст из файлов, окон приложений операционной системы Microsoft Windows и универсального буфера обмена Clipboard.

Как видно на рис. 7-19, в главном окне программы расположены три вкладки Speak, Email Reader и Settings. За чтение текста отвечает вкладка Speak, остальные вкладки мы рассмотрим позже.

В верхней части вкладки Speak расположено поле редактирования текста. Вы можете набрать в этом поле любой текст, а затем щелкнуть кнопку Say It!. Персонаж программы Speak & Mail 2000 прочитает вслух введенный Вами текст.

Щелкнув кнопку Date или Time, Вы услышите текущую дату или время, соответственно.

Чтобы прочитать голосом текстовый файл, воспользуйтесь строкой Read Text File меню File. К сожалению, программа может читать только простые текстовые файлы, а не офисные документы, такие, например, как документы Microsoft Word.

Для проигрывания предварительно записанного звукового файла формата WAV Вам нужно выбрать из меню File строку Play a WAV File.

По умолчанию программа читает любой текст, записанный пользователем в универсальный буфер обмена Clipboard. Вы можете запустить чтение текста, записанного в Clipboard в любое время, щелкнув мышью кнопку Clipboard.

Если нужно прервать чтение, щелкните кнопку Stop, расположенную в правой части главного окна программы Speak & Mail 2000.

Работа с голосовыми командами

Как мы уже говорили, Вы можете не только слушать персонаж программы Speak & Mail 2000, но и говорить, выдавая ему голосовые команды. С помощью голосовых команд можно запускать произвольные приложения, проверять, управлять работой программы Speak & Mail 2000 или операционной системой Microsoft Windows.

Предварительно установленный набор команд

По умолчанию в программе уже имеется предварительно установленный набор команд. Вы можете изменить текст этих команд или добавить новые.

Чтобы просмотреть упомянутый выше список команд, щелкните кнопку Options, расположенную в нижней части вкладки Speak (рис. 7-19). В результате на экране появится одноименное окно с вкладками. Откройте в этом окне вкладку Commands (рис. 7-21).

Рис. 7-21. Предварительно установленные голосовые команды

Здесь определены голосовые команды, выдавая которые можно узнать текущее время и дату, остановить работу операционной системы, прослушать содержимое текста, записанного в Clipboard, перезапустить операционную систему, подготовить голосовые сообщения, проверить почту и послушать шутку, случайно выбранную из списка шуток.

При необходимости Вы можете отредактировать тексты этих команд (текст команд необходимо вводить на английском языке).

Как выдать голосовую команду?

Для этого, прежде всего, необходимо нажать клавишу Scroll Lock. После этого персонаж программы будет готов выслушать Вашу команду (рис. 7-22).

Рис. 7-22. Персонаж программы готов выслушать Вашу команду

После этого нужно громко и отчетливо произнести в микрофон текст команды, а затем отпустить клавишу Scroll Lock. Если программа не смогла распознать команду, около персонажа появится соответствующая надпись «Merlin is not listening -- Didn’t understand your request». Вам придется повторить команду. Если ничего не получается, проверьте текст команды, а также настройку чувствительности микрофона.

Добавление новой команды

Если Вам нужно добавить новую команду, щелкните кнопку Voice Applications, расположенную на вкладке Speak (рис. 7-19). После этого на экране появится диалоговое окно Voice Activated Applications Setup (рис. 7-23). Здесь Вам нужно будет щелкнуть кнопку New для добавления новой команды.

Рис. 7-23. Подготовка команды для запуска калькулятора

Рис. 7-23 иллюстрирует процедуру создания голосовой команды Start Calculator, предназначенной для запуска калькулятора.

Вначале Вам нужно ввести название команды в поле Application Title. Текст команды, при произнесении которого команда будет запущена, нужно ввести в поле Voice Activation Command.

Далее, если команда связана с запуском приложения Microsoft Windows (как в нашем случае), нужно щелкнуть кнопку File. После этого на экране появится стандартное диалоговое окно выбора исполнимого файла.

Выбрав файл, при необходимости задайте дополнительные параметры, которые будут переданы приложению при запуске этого файла (рис. 7-24).

Рис. 7-24. Можно задать дополнительные параметры

Чтобы добавленная команда активировалась голосом, отметьте флажок Voice Activated. Если этого не сделать, команда будет доступна только из контекстного меню персонажа программы Speak & Mail 2000. Мы показали это меню с добавленной командой запуска калькулятора на рис. 7-25.

Рис. 7-25. Новая команда появилась в контекстном меню персонажа программы

Если команду не нужно добавлять в контекстное меню персонажа, снимите отметку с флажка Visible in Character’s Popup Menu.

Обратите внимание, что в первой строке контекстного меню персонажа программы, показанного на рис. 7-25, идет команда Open Voice Commands Window. С помощью этой команды можно просмотреть древовидный список всех команд, определенных для программы Speak & Mail 2000.

Рис. 7-26. Окно просмотра списка всех голосовых команд

Это окно поможет Вам в случае, если Вы забыли текст той или иной голосовой команды.

При необходимости Вы можете удалить ненужную более команду, выделив ее название в левой части окна Voice Activated Applications Setup, а затем нажав кнопку Remove (рис. 7-23).

Функция напоминания

Программа Speak & Mail 2000 поможет Вам вспомнить о важных событиях и работах. Такие напоминания, произнесенные голосом персонажа программы Speak & Mail 2000, бывают однократные и многократные, выдаваемые по заранее составленному графику.

Новое напоминание

Чтобы создать новое напоминание, щелкните в главном окне программы кнопку Notes (рис. 7-19). После этого на экране появится диалоговое окно добавления и редактирования напоминаний Notes & Reminders, показанное на рис. 7-27.

Рис. 7-27. Добавление напоминания

В поле Note or Reminder Name нужно ввести заголовок напоминания, например, Пора на обед. В поле Note следует ввести текст напоминания, который будет отображен на экране и произнесен голосом.

Чтобы напоминание работало, флажок Remind Me должен быть отмечен. Справа от этого флажка находится список, при помощи которого можно выбрать, когда должно выдаваться напоминание. Можно указать, что напоминание следует выдавать однократно (строка Once), ежедневно (Daily), еженедельно (Weekly) или ежегодно (Yearly).

Пользуясь календарем и элементом управления Time, нужно задать время появления напоминания.

Чтобы просмотреть и прослушать только что подготовленное напоминание, щелкните кнопку Preview. На экране появится диалоговое окно с напоминанием, показанное на рис. 7-28.

Рис. 7-28. Напоминание появилось на экране

Чтобы убрать диалоговое окно с напоминанием с экрана, воспользуйтесь кнопкой Dismiss.

Удаление напоминания

В том случае, если напоминание Вам больше не нужно, щелкните кнопку Notes для отображения окна создания и редактирования напоминаний, показанного на рис. 7-28.

Затем в этом окне выберите ненужное напоминание, выделив его левой клавишей мыши, а затем щелкните кнопку Remove.

Пропущенные напоминания

Система напоминаний будет надежно работать только в том случае, если при каждой загрузке компьютера Вы запускаете программу Speak & Mail 2000. Ведь если эта программа не работает, она не сможет вывести на экран и произнести текст напоминания.

Чтобы просмотреть список напоминаний, пропущенных по той причине, что во время напоминания программа Speak & Mail 2000 не была запущена, щелкните в главном окне программы (рис. 7-19) кнопку Missed Reminders. На экране появится одноименное диалоговое окно, показанное на рис. 7-29.

Рис. 7-29. Просмотр пропущенных напоминаний

Здесь Вы можете отменить выдачу напоминания, отметив флажок, расположенный слева от названия напоминания, открыть окно редактирования напоминаний (рис. 7-28) при помощи кнопки Reminders или прочитать текст напоминания (кнопка Read). Чтобы закрыть окно просмотра пропущенных напоминаний, воспользуйтесь кнопкой Close.

В том случае, когда отмечен флажок Check for missed reminders at start up, программа Speak & Mail 2000 будет проверять наличие пропущенных напоминаний при каждом запуске. Если же отмечен флажок Read missed reminders, пропущенные напоминания будут прочитаны голосом.

Чтение голосом сообщений электронной почты

В некоторых фантастических фильмах демонстрируются возможности чтения сообщений электронной почты голосом. Как правило, для этого достаточно подойти к терминалу нажать кнопку — робот прочитает всю почту и покажет ее на экране.

После соответствующей настройки программа Speak & Mail 2000 способна получить и прочитать голосом содержимое Вашего почтового ящика по протоколу POP3, расположенного на почтовом сервере провайдера Интернета.

Чтобы настроить программу для чтения сообщений электронной почты, откройте в главном окне программы вкладку Email Reader, показанную на рис. 7-30.

Рис. 7-30. Вкладка Email Reader для работы с электронной почтой

Здесь Вам нужно добавить учетные записи для серверов электронной почты, с которых Вы хотите получать сообщения для их последующего чтения голосом. Сразу после установки программы таких учетных записей нет, поэтому список Account в верхней части вкладки Email Reader пуст.

Для добавления новой учетной записи щелкните кнопку, расположенную справа от списка Account или выберите из меню Email строку Account Settings. На экране появится диалоговое окно Email Accounts (рис. 7-31).

Рис. 7-31. Настройка параметров учетной записи (параметры учетной записи приведены только для примера)

Щелкните в этом окне кнопку New и заполните поля информацией, полученной от провайдера Инетрнета.

В поле Account Name Вы можете ввести произвольное название учетной записи. Адрес сервера POP3 нужно указать в поле POP3 Server, логин — в поле Username, а пароль — в поле Password. Номер порта Port и время таймаута (Timeout) оставьте без изменений, елси только Ваш провайдер Интернета не предъявляет каких-либо специфических требований по этим параметрам.

Чтобы программа проверяла почту для данной учетной записи, флажок Enable Account должен находиться в отмеченном состоянии.

На следующем этапе Вам нужно настроить параметры извещений о появлении почтовых сообщений. Для этого щелкните кнопку Notification Setup, расположенную в только что описанном диалоговом окне Email Accounts. В результате будет открыто окно Options на вкладке Email, как это показано на рис. 7-32.

Рис. 7-32. Настройка параметров извещения о появлении почтовых сообщений

Чтобы программа Speak & Mail 2000 автоматически проверяла почту через заданный интервал времени, отметьте флажок Check for new mail every X Minutes, указав интервал времени в минутах, через который нужно проверять почту. Такой режим удобен, если у Вас постоянное подключение к Интернету, а не коммутируемое с использованием модема и телефонной линии.

Можно также заставить программу Speak & Mail 2000 проверять почту при каждом запуске, для чего нужно отметить флажок Check at Speak Startup.

Надо сказать, что на чтение большого количества сообщений может уйти немало времени. Если отметить флажок Enable the ten new messages read conformation, программа будет запрашивать подтверждение на чтение сообщений, в том случае, когда их количество превышает 10.

Так как сообщение электронной почты может содержать очень много строк, едва ли имеет смысл читать каждое сообщение полностью. Тем более, что большинство полученных сообщений может оказаться спамом. С помощью трех описанных ниже флажков можно указать программе, какие части полученного сообщения нужно читать голосом.

Если нужно прочитать имя отправителя и тему сообщения, отметьте, соответственно, флажки Read the sender name и Read the subject. Отметив флажок Read X lines from the new message body и указав количество строк, Вы разрешите программе прочитать несколько строк тела сообщения.

Заметим, что Вы можете проверить свой почтовый ящик в любой момент, щелкнув кнопку Check в главном окне программы Speak & Mail 2000, показанном на рис. 7-30. Текст полученного сообщения и его заголовки будут показаны на вкладке Email Reader (рис. 7-33).

Рис. 7-33. Просмотр содержимого сообщения (электронный адрес приведен только для примера)

К сожалению, при просмотре сообщений с символами кириллицы возникают проблемы перекодировки — сказывается иностранное происхождение программы Speak & Mail 2000.

Дополнительная настройка программы

Программа Speak & Mail 2000 позволяет выполнять многочисленные настройки. Эти настройки позволяют выбирать голос персонажа программы, способ его работы, внешний вид персонажа и пр.

Полное описание настроек программы выходит за рамки нашей книги, поэтому мы рассмотрим только наиболее интересные, на наш взгляд, настройки. Более подробную информацию на эту тему Вы найдете в документации и в справочной системе программы.

Чтобы получить доступ к настройкам, щелкните кнопку Options, расположенную в главном окне программы (рис. 7-19). После этого на экране появится одноименное диалоговое окно с несколькими вкладками. На рис. 7-34 мы показали это окно, открытое на вкладке настройки параметров запуска программы StartUp.

Рис. 7-34. Параметры запуска программы Speak & Mail 2000

Параметры запуска

На вкладке StartUp (рис. 7-34) Вы можете отменить показ главного окна программы сразу после запуска. При необходимости это окно можно будет отобразить с помощью значка программы Speak & Mail 2000, отображаемого в системной панели рабочего стола Microsoft Windows.

Можно также отключить показ рекламного окна, отменить произнесение персонажем программы приветственной речи или задать текст речи для заданного времени дня или даты. Например, утром программа может приветствовать Вас словами «Доброе утро», а вечером — словами «Добрый вечер». Можно также сообщить программе, как Вас зовут — указанное имя будет использовано для приветствия.

Параметры голосового ввода и синтеза речи

На вкладке Voice Input, показанной на рис. 7-35, можно настроить параметры голосового ввода. Как видно на этом рисунке, вкладка Voice Input содержит набор флажков и кнопку Change Speech Input Settings.

Рис. 7-35. Настройка параметров голосового ввода

Флажки позволяют активировать или деактивировать встроенные голосовые команды, такие как чтение содержимого универсального буфера обмена Clipboard, чтение даты и времени и т.п.

Что же касается кнопки Change Speech Input Settings, то она открывает доступ к диалоговому окну Advanced Character Options, предназначенному для настройки параметров голосового ввода и синтеза персонажа программы, ведущего диалог с пользователем.

Вкладка Speech Input этого диалогового окна предоставляет возможность дополнительной настройки параметров голосового ввода (рис. 7-36).

Рис. 7-36. Дополнительная настройка параметров голосового ввода

Если отмечен флажок Characters listen for input, программа распознает голосовые команды. В поле When you press the X key Вы можете указать клавишу, применяемую для активации голосового ввода (по умолчанию это клавиша Scroll Lock).

Если нужно сделать так, чтобы голосовой ввод активировался только на некоторое время после нажатия указанной клавиши, введите это время в поле And continue for X seconds or until you release the key. Голосовой ввод будет деактивирован после того, как Вы отпустите клавишу, заданную в поле When you press the X key.

Чтобы программа отображала подсказки во время голосового ввода, отметьте флажок Display listening tips.

Вкладка Output (рис. 7-37) открывает доступ к диалоговому окну паарметров синтезатора речи.

Рис. 7-37. Настройка параметров синтезатора речи

Здесь можно выбрать режим, когда персонаж отображает на экране произносимые слова, отметив флажок Display spoken output in word balloon using. Текст может отображаться шрифтом, выбранным по умолчанию или произвольным шрифтом. В последнем случае нужно отметить флажок A single font for all characters, а затем выбрать шрифт при помощи кнопки Font.

Чтобы персонаж программы смог говорить, должен быть отмечен флажок Play spoken audio. С помощью движка Speaking speed можно регулировать темп речи, ускоряя или замедляя его.

Состояние флажка Play characters sound effect влияет на акустическое «поведение» персонажа программы. Если снять отметку с этого флажка, персонаж станет вести себя потише — он, например, не будет перед началом речи привлекать Ваше внимание различными звуковыми эффектами, вроде игры на трубе.

Важные голосовые настройки находятся в главном окне программы на вкладке Settings, показанном на рис. 7-38.

Рис. 7-38. Настройка параметров голоса

Прежде всего, Вам потребуется список голосов Voice. Из этого списка нужно выбрать голос, способный говорить на русском (или другом нужном Вам) языке. Как мы уже говорили, чтобы программа Speak & Mail 2000 могла говорить по-русски, необходимо загрузить из Интернета и установить соответствующий программный модуль синтеза речи.

Список Character позволяет выбрать внешний вид персонажа программы.

Движки Pitch и Speed позволяют оперативно регулировать высоту и темп голоса, соответственно.

Если отметить флажок Hide Balloon, персонаж не будет отображать на экране произносимый текст. Вы можете скрыть текст, если он отвлекает Вас от работы.

Отметив флажок Whisper, Вы заставите персонаж говорить шепотом.

Набор флажков, расположенный в поле Speak settings, позволяет включать и отключать различные голосовые режимы персонажа программы, меняя его поведение.

Например, если фигура персонажа намозолила Вам глаза, уберите ее с экрана, отметив флажок Hide character while not speaking. После этого персонаж будет появляться, только для того, чтобы что-нибудь сказать.

Сняв отметку с флажка Enable Jokes, можно запретить программе развлекать Вас шутками. Это уместно, например, если компьютер находится на работе или если посторонние шумы отвлекают Вас от дел.

Те из Вас, кто любит сюрпризы, могут отметить флажок Load a random character at startup. При этом каждый раз при запуске программы будет появляться новый персонаж, выбранный случайным образом.

По умолчанию программа автоматически читает текст, скопированный в универсальный буфер обмена Clipboard. Это может мешать, если при работе с текстом Вы часто пользуетесь этим буфером. Чтобы отключить режим автоматического чтения содержимого Clipboard, снимите отметку с флажка Enable automatic clipboard reading.

И, наконец, флажок Don’t read the following characters позволит Вам запретить программе читать символы из заранее составленного списка. Список находится справа от этого флажка (рис. 7-38).

Юмор — дело тонкое. Может оказаться так, что набор дежурных шуток, входящих в комплект программы Speak & Mail 2000, Вам не подойдет. В этом случае щелкните кнопку Edit Jokes и отредактируйте список шуток в диалоговом окне, показанном на рис. 7-39.

Рис. 7-39. Редактирование списка шуток

Последний блок параметров настройки программы Speak & Mail 2000, о которых мы расскажем в нашей книге, расположен в диалоговом окне Options на вкладке Character (рис. 7‑40).

Рис. 7-40. Прочие настройки

Здесь Вы можете включить или отключить анимацию персонажа во время произнесения речи (флажок Anime character when reading), выбрать вид анимации при помощи списка, расположенного справа от упомянутого флажка, выбрать размер персонажа (список Character Size), тип и размер шрифта для текста произносимой речи (кнопка Font).

Набор флажков, расположенных в нижней части диалогового окна, позволяет задать реакцию персонажа программы на щелчки мыши, включить или отключить анимацию во время молчания, управлять использованием звуковых эффектов, а также включить режим автоматического сохранения параметров программы.

Как видите, после соответствующей настройки программа Speak & Mail 2000 может стать для Вас помощником, упрощающим работу с компьютером. Но, разумеется, это произойдет только в том случае, если Вы найдете и установите на компьютер качественный модуль синтеза речи, способный «говорить» на привычном для Вас языке.

Программа Better Text to MP3

Программа Better Text to MP3, разработанная компанией United Research (www.research-lab.com) интересна тем, что она может автоматически преобразовывать текстовые файлы в звуковые файлы популярных форматов WAV и MP3. Впоследствии такие файлы можно прослушивать при помощи любого проигрывателя звуковых файлов, такого, например, как Winamp. Следует заметить, что программа Better Text to MP3 и сама может служить проигрывателем звуковых файлов.

Работа программы основана на использовании речевого интерфейса Microsoft SAPI 4.0, при этом программа может говорить (а точнее говоря, записывать в файл текст, произнесенный синтезированным голосом) на 11 языках. Предусмотрена также регулировка темпа речи.

Если на компьютере установлен программный компонент преобразования текста в речь для русского языка, программа Better Text to MP3 сможет читать и русские тексты.

Так как программа способна преобразовывать файлы текстовых документов в звуковые файлы, с ее помощью Вы можете преобразовать библиотеку текстовых документов в набор звуковых файлов для прослушивания. Эти файлы можно прослушать не только на компьютере, но и на обычном портативном плеере MP3-файлов (например, по дороге на работу).

Программа Better Text to MP3 может также переслать файл MP3, полученный в результате преобразования, по электронной почте.

Программа снабжена клавиатурным интерфейсом, предназначенным для людей с ограниченными возможностями. Такой интерфейс доступен в зарегистрированной версии программы по дополнительному запросу.

Установка программы

Программа Better Text to MP3 может работать в операционной системе Microsoft Windows 98/NT/2000/XP. Она не предъявляет никаких особенных требований к оборудованию компьютера, поэтому сможет работать на любом современном компьютере. Более полное описание требований к конфигурации аппаратных и программных средств Вы найдете в документации на программу.

Для установки программы Better Text to MP3 запустите исполнимый файл setup.exe.

Прежде всего, на экране появится список, позволяющий выбрать язык для ведения диалога с пользователем во время установки (рис. 7-41).

Рис. 7-41. Выбор языка при установке

Приятно, что в этом списке не забыт русский язык, как это часто случается в программах синтеза и особенно распознавания речи.

Выбрав нужный Вам язык установки (это не тот язык, на котором будет говорить программа), щелкните кнопку OK. Вы увидите первое диалоговое окно мастера установки (рис. 7-42).

Рис. 7-42. Мастер установки программы

Чтобы приступить к установке, щелкните кнопку Вперед. После ознакомления с лицензионным соглашением об использовании программы и с общей информацией о программе Вам будет предоставлена возможность выбора каталога для установки и папки для значка программы.

Когда вся информация, необходимая для установки, будет собрана, Вы увидите последнее окно мастера установки, показанное на рис. 7-43.

Рис. 7-43. Последнее окно мастера установки программы

Щелкните в этом окне кнопку Вперед для запуска процесса копирования файлов. После окончания этого процесса Вам будет предложено прочитать информацию о программе, а также запустить саму программу.

Запуск программы

Программа Better Text to MP3 распространяется как условно-бесплатная, поэтому для длительного использования Вам необходимо ее зарегистрировать. В противном случае программа будет работоспособна всего неделю. Этого срока вполне достаточно, чтобы оценить ее возможности.

При каждом запуске незарегистрированная версия программы будет выводить на экран диалоговое окно регистрации, показанное на рис. 7-44.

Рис. 7-44. Программа требует регистрации

Чтобы запустить программу в пробном режиме, щелкните кнопку Launch. На экране появится главное окно программы, а также диалоговое окно со списком доступных языков (рис. 7-45).

Рис. 7-45. Список доступных языков

Преобразование текста в файлы MP3

В главном окне программы расположены три списка, левый из которых содержит исходные файлы текстовых документов, а средний и правый — соответственно, преобразованные звуковые файлы форматов WAV и MP3.

Вначале Вам нужно добавить исходные текстовые файлы в левое окно, а затем запустить процесс преобразования. Полученные звуковые файлы появятся в среднем и правом окнах.

Для добавления исходных текстовых файлов Вам нужно открыть меню Text, а затем выбрать из него строку Add Files (all types). Это меню показано на рис. 7-46.

Рис. 7-46. Меню Text

Разрешается добавлять не только обычные текстовые файлы, но и документы в формате текстового процессора Microsoft Word, файлы HTML, XML и другие файлы, состоящие из текстовых символов.

На рис. 7-47 мы показали диалоговое окно выбора исходных файлов.

Рис. 7-47. Добавление текстового файла

В этом окне можно выбрать один или несколько файлов. Выбрав все необходимые файлы, щелкните кнопку OK. Файлы будут загружены в левый список, расположенный в главном окне программы.

На рис. 7-48 мы добавили файл ReadMe.rtf.

Рис. 7-48. Контекстное меню для выбора операций над добавленным файлом

На рис. 7-48 мы также показали контекстное меню, которое появится, если щелкнуть правой клавишей мыши файл, загруженный в левый список. С помощью этого списка можно запустить преобразование одного или нескольких выбранных файлов в формат MP3.

Заметим, что с помощью строки Advanced этого меню Вы можете выбрать различные режимы преобразования. Если в левом окне выделено несколько текстовых файлов, то Вы можете преобразовать каждый из них в отдельный звуковой файл, а можете преобразовать все текстовые файлы в один звуковой файл MP3.

Контекстное меню позволяет просмотреть исходный текстовый файл (непосредственно или с помощью создавшего этот файл приложения), удалить файл из списка, переименовать, скопировать или стереть файл, а также просмотреть его свойства.

После того как Вы укажите исходный текстовый файл и затем выберете из контекстного меню строку Convert Selected Files to Individual Mp3, будет запущен процесс преобразования исходных текстовых файлов в звуковые файлы. Ход этого процесса отображается в главном окне программы Better Text to MP3 (рис. 7-49).

Рис. 7-49. Создание файла MP3

Когда преобразование будет завершено, в среднем и правом списке появятся имена созданных звуковых файлов, соответственно, формата WAV и MP3 (рис. 7-50). Если файл WAV Вам не нужен, его можно стереть в среднем списке при помощи контекстного меню.

Рис. 7-50. Преобразование завершено

Щелкнув правой клавишей мыши файлы, полученные в результате преобразования, Вы откроете контекстное меню, показанное на рис. 7-51.

Рис. 7-51. Контекстное меню преобразованных файлов WAV и MP3

Чтобы прослушать содержимое полученного файла, выберите из этого меню строку Play (Selected) или Play (All). В первом случае будут проиграны только выбранные файлы, а во втором — все файлы из списка.

Чтобы прослушать содержимое файла при помощи программного плеера (такого, например, как WinAmp), щелкните имя файла дважды.

Настройка параметров программы

Настраивая параметры программы, можно изменять характеристики синтезированного голоса, которым произносится текст, а также при необходимости изменять произношение отдельных слов.

Чтобы получить доступ к диалоговому окну настройки параметров, выберите из меню Options строку Settings. В результате на экране появится диалоговое окно Options с несколькими вкладками, показанное на рис. 7-52.

Рис. 7-52. Вкладка Speech диалогового окна Options

Здесь при помощи поля Pitch и движка Speed можно задать, соответственно, высоту и темп голоса. Обратите внимание на то, что при снижении темпа речи увеличивается размер полученного звукового файла.

Чтобы услышать, как звучит речь после изменения настроек, воспользуйтесь кнопкой Speak it. В текстовом поле ввода, расположенном над этой кнопкой, Вы можете ввести любую фразу.

Определенный интерес вызывает возможность настройки произношения слов, предусмотренная в программе Better Text to MP3. Чтобы воспользоваться ей, щелкните кнопку Modify Text To Speech Pronunciation, расположенную в верхней части вкладки Speech (рис. 7‑52). На экране появится диалоговое окно Text To Wave, показанное на рис. 7-53.

Рис. 7-53. Добавление в словарь нового слова

Введите в верхней части этого окна слово, добавляемое в словарь, или изменяемое слово. В результате Вы увидите диалоговое окно настройки произношения, показанное на рис. 7-54.

Рис. 7-54. Настройка произношения

В этом окне можно задать звучание слов на английском языке или при помощи фонем. В последнем случае надо щелкнуть кнопку Phonemes и выбрать нужные фонемы из списка (рис. 7-55).

Рис. 7-55. Список доступных фонем

Так как в программе применяются фонемы английского языка, будьте готовы к тому, что синтезированный голос будет читать русские слова с английским акцентом.

Программа TextAssist

Программа TextAssist очень удобна для чтения содержимого текстовых документов, загруженных в окна приложений, таких, например, как браузер, текстовый процессор, справочная система и т.п.

К сожалению, версия этой программы, доступная на момент создания книги, могла говорить только на английском языке. Для синтеза речи программа использует технологию FlexVoice, а не интерфейс Microsoft Speech API, как ранее описанные программы. Разработчики говорящих программ могут приобрести интерфейс FlexVoice SDK для использования в собственных программах у компании Mindmaker (http://www.flexvoice.com).

Главное окно программы TextAssist показано на рис. 7-56.

Рис. 7-56. Главное окно программы TextAssist

Программа TextAssist позволяет делать одновременно два дела, например, прослушивать содержимое текстового документа и работать с электронной почтой. Она сбережет Ваше зрение, так позволит меньше смотреть на экран монитора.

Работа с программой

Программа TextAssist позволяет читать синтезированным голосом текстовое содержимое окна программы, с которой работает пользователь.

Для того чтобы программа приступила к чтению, нужно щелкнуть в ее окне кнопку Play с изображением треугольника. Это третья слева кнопка на рис. 7-56.

В процессе чтения на экране в отдельном окне может отображаться читаемый текст, причем текущая позиция будет выделена (рис. 7-57). Чтобы программа вела себя подобным образом, нужно щелкнуть кнопку Highlight text (вторая слева кнопка на рис. 7-56).

Рис. 7-57. Программа TextAssist в действии

Кнопки, расположенные в главном окне программы TextAssist, позволяют управлять процессом чтения текста, а также настраивать внешний вид окна и различные параметры. Можно включать или отключать режим отображения читаемого текста в отдельном окне, настраивать произношение отдельных слов, выбирать параметры голоса.

Программа предоставляет возможность создания собственных голосов (при помощи редактора Voice Editor), а также словарей, определяющих произношение некоторых слов (при помощи редактора Dictionary Editor).

Настройка программы

По умолчанию сразу после установки окно программы TextAssist имеет небольшие размеры, как это показано на рис. 7-57. Для того чтобы получить доступ к панели управления, необходимой для настройки самых важных параметров программы, щелкните в этом окне кнопку Expand toolbar. Это самая правая кнопка в окне программы.

После щелчка этой кнопки окно программы TextAssist примет вид, показанный на рис. 7‑56. При необходимости Вы можете вновь уменьшить размеры этого окна, щелкнув ту же самую кнопку еще раз.

В упомянутой выше панели управления находится список, при помощи которого Вы можете выбрать голос для чтения текста.

Рис. 7-58. Выбор голоса для чтения текста

Так как в программе используется технология синтеза речи FlexVoice, а не интерфейс Microsoft Speech API, Вам не удастся заставить говорить эту программу на русском языке посредством установки программных модулей синтезаторов речи, о которых мы говорили ранее в этой главе.

Кнопки инструментальной панели

Справа от списка голосов находятся движки, с помощью которых можно регулировать громкость (Volume), высоту (Pitch) и скорость (Speed) речи.

Движок Balance предназначен для регулировки баланса стерео. Вы можете воспользоваться им, например, чтобы голос, читающий текст, был слышен со стороны.

Движки Echo и Inv.Echo предназначены для настройки параметров эха, которое тоже может быть добавлено в речь.

Главное меню программы

Другие настройки, а также редакторы голоса и словаря доступны через главное меню программы (рис. 7-59). Это меню откроется, если щелкнуть кнопку Main menu (вторая справа кнопка на рис. 7-59).

Рис. 7-59. Главное меню программы

Параметры программы

Выбрав из главного меню программы строку TextAssist Properties, мы откроем окно настройки параметров программы TextAssist, содержащее вкладки Hot Keys и Realtime Parameters (рис. 7-60).

Рис. 7-60. Настройка комбинаций клавиш для ускоренного выбора функций

Вкладка Hot Keys, показанная на рис. 7-60, дает нам возможность редактировать комбинации клавиш, применяемых для ускоренного выбора функций программы. Эти клавиши позволяют управлять работой программы без помощи мыши.

На вкладке Realtime Parameters (рис. 7-61) можно настраивать параметры голоса, такие как громкость, высота тона, скорость, баланс стерео и эхо. Все эти параметры можно изменять и при помощи инструментальной панели, показанной выше на рис. 7-58.

Рис. 7-61. Настройка параметров голоса

Если в главном меню выбрать строку Highlighter Settings, то на экране появится диалоговое окно, позволяющее изменять внешний вид и формат окна, отображающего произносимый текст (рис. 7-62).

Рис. 7-62. Настройка выделения произносимого текста

Настройка на приложения

Одной из интересных возможностей программы TextAssist является индивидуальная настройка на различные приложения. Выполнив такую настройку, Вы можете озвучивать содержимое окно разных приложений на разных языках и разными голосами. Это поможет Вам узнавать программы по голосу.

Чтобы выполнить такую настройку, выберите из главного меню программы строку Associations. В результате на экране появится одноименное диалоговое окно, показанное на рис. 7-63.

Рис. 7-63. Привязка к приложениям

Как видите, в этом окне находится список запущенных приложений, а также строку DEFAULT. С помощью кнопок, расположенных в правой части окна, Вы можете настраивать параметры озвучивания приложений (кнопка Settings), добавлять (Add), удалять (Remove) и копировать (Copy) элементы списка.

Отмечая флажки, расположенные напротив строк списка, или снимая отметку с этих флажков, Вы тем самым включите или, наоборот, отключите режим озвучивания тех или иных приложений. Для озвучивания всех приложений щелкните кнопку Enable all, а для того чтобы все приложения стали немы — кнопку Disable All.

Выбрав в списке приложение, Вы можете отредактировать параметры привязки, щелкнув кнопку Settings. При этом на экране появится диалоговая панель Settings (рис. 7-64).

Рис. 7-64. Параметры привязки для приложения Microsoft Word

При помощи списка Languages здесь можно выбрать язык, а при помощи списка Voices — голос. Кнопка Voice Editor предназначена для запуска редактора голоса, к описанию которого мы и перейдем.

Редактор голоса Voice Editor

Окно редактора голоса Voice Editor, позволяющего изменять многочисленные параметры синтезированного голоса, показано на рис. 7-65.

Рис. 7-65. Окно редактора голоса Voice Editor

В левой верхней части этого окна находится список голосов, входящих в комплект программы. Вы можете редактировать параметры этих голосов, а также создавать новые голоса при помощи кнопки Add. Надо, однако, заметить, что подобным образом нельзя создать голос, говорящий на русском языке.

В левой нижней части находится окно ввода текста и кнопка Speak. С помощью этой кнопки Вы можете попробовать голос с текущими настройками. Настроив голос, сохраните его параметры при помощи кнопки Save, расположенной справа от списка голосов.

Что же касается самих параметров голоса, то для их настройки предусмотрены две группы движков — Settings и Audio.

Первая из этих групп движков позволяет настраивать следующие параметры:

· громкость (Loudness);

· скорость (Speed);

· высота голоса (Pitch);

· реверберация (Singing pitch);

· уровень выделения интонацией (Intonation level);

· размер заголовка (Headsize);

· яркость звука (Richness);

· частота фрикативного шума (Frication rate);

· плавность звука (Smoothness)

Как видите, можно регулировать достаточно большое количество параметров голоса.

Движки в поле Audio предназначены для регулировки громкости (Volume), баланса стерео (Balance), прямого и инверсного эха (движки Echo и Inverse Echo, соответственно).

Редактор словаря Dictionary Editor

Редактор словаря Dictionary Editor, встроенный в программу TextAssist, позволяет изменить произношение любого слова или добавить в базу данных программы новое слово, определив его произношение.

Чтобы открыть редактор словаря Dictionary Editor, нужно выбрать из главного меню программы TextAssist строку Dictionary Editor (рис. 7-59). На экране появится главное окно редактора, показанное на рис. 7-66.

Рис. 7-66. Окно редактора словаря Dictionary Editor

Чтобы добавить в словарь новое слово, щелкните кнопку Add. При этом Вы увидите диалоговое окно Word Pronunciation, позволяющее задать новое слово и его произношение (рис. 7-67).

Рис. 7-67. Настройка произношения слова привет

В поле Word нужно ввести новое слово.

Произношение нового слова задается двумя способами — в виде аналогично звучащего английского слова или с помощью фонем (англоязычных). В первом случае слово вводится в поле Sound like, а во втором — в поле Phonetic representation с помощью списка фонем Phonemes. Обратите внимание, что в списке фонем приводится обозначение фонемы, а также слово, в котором эта фонема встречается.

Справа от каждого из перечисленных полей имеется кнопка, предназначенная для прослушивания слов или фонем.

Программа Speaking Email Deluxe

В этом разделе мы расскажем еще об одной условно-бесплатной говорящей программе Speaking Email Deluxe, предназначенной, как нетрудно догадаться по названию, для чтения голосом сообщений электронной почты. Вы можете загрузить эту программу из Интернета по адресу http://www.uk-software.com/speakingemail.htm.

Эта программа может получить содержимое Вашего почтового ящика и прочитать вслух заголовки, а также текст полученных сообщений (в том числе на русском языке). С ее помощью можно также готовить и отправлять сообщения электронной почты.

Главное окно программы Speaking Email Deluxe показано на рис. 7-68.

Рис. 7-68. Главное окно программы Speaking Email Deluxe

Как видите, программа общается с пользователем при помощи анимированного персонажа с именем Max, внешний вид и поведение которого можно настраивать.

Установка и настройка программы

Прежде чем программа Speaking Email Deluxe сможет получать и читать Вашу почту, ее необходимо настроить, указав адреса и пароли доступа к почтовым серверам POP3 и SMTP.

Если нужно чтобы программа могла говорить на русском языке, следует дополнительно загрузить из Интернета и установить соответствующий программный модуль преобразования текста в речь. Как мы уже говорили, ссылки на такие модули можно найти, например, на странице http://www.vector-ski.ru/vecs/govorilka.html.

Для установки нужно запустить инсталляционную программу. Она попросит Вас ознакомится с лицензионным соглашением, выбрать каталог для установки и скопирует в этот каталог все необходимые файлы. Далее инсталляционная программа перезагрузит операционную систему.

После перезагрузки запустите программу Speaking Email Deluxe и откройте вкладку Settings, предназначенную для настройки основных параметров программы (рис. 7-69).

Рис. 7-69. Вкладка Settings (адрес сервера POP3 показан только для примера)

При автоматической настройке программа Speaking Email Deluxe сама находит почтовую программу. Путь к исполнимому файлу почтовой программы указан в поле Regular email program. При необходимости его можно отредактировать. Если щелкнуть кнопку Find, программа Speaking Email Deluxe самостоятельно найдет почтовую программу, установленную на компьютере.

Параметры сервера POP3

При настройке параметров сервера POP3 в поле Friendly name нужно ввести произвольную строку названия почтового ящика. Адрес почтового сервера POP3 следует ввести в поле POP3 Server. Идентификатор (логин) и пароль для доступа к почтовому ящику вводится, соответственно, в полях POP3 user name и POP3 Password.

Если щелкнуть кнопку Auto detect, программа попытается определить вышеперечисленные параметры автоматически.

В верхней части вкладки Settings, показанной на рис. 7-69, находится несколько флажков. Вы можете оставить их в исходном состоянии, или выполнить некоторые переключения.

Если у Вас постоянное подключение к Интернету, имеет смысл автоматически загружать программу Speaking Email Deluxe при запуске операционной системы. Для этого должен быть отмечен флажок Load Speaking Email Deluxe with Windows. Кроме того, нужно отметить флажок Permanent connection or LAN connection.

При использовании постоянного подключения к Интернету удобно автоматически проверять содержимое почтового ящика с заданным интервалом времени. Этот интервал можно указать в поле Check for new email every XX minutes.

Если Вы используете модемное подключение и платите за время подключения, отметьте флажок Disconnect after checking foe email. В этом случае, после того как почта будет получена, программа автоматически разорвет соединение с Интернетом. Кроме того, возможно, имеет смысл указать в поле Check for new email every XX minutes нулевое значение, запретив программе выполнять автоматическую проверку содержимого почтового ящика.

Параметры сервера SMTP

Вкладка Send email (рис. 7-70) предназначена для отправки почтовых сообщений без помощи дополнительной почтовой программы. На этой же вкладке задаются параметры, необходимые для подключения к серверу SMTP Вашего провайдера.

Рис. 7-70. Вкладка Send email

При настройке Вам нужно ввести доменное имя или адрес IP сервера SMTP в поле Smtp server address, расположенном в верхней части вкладки Send email. Можно также определить этот адрес автоматически из установок Вашей почтовой программы, если щелкнуть кнопку Auto detect.

Щелкнув кнопку Change my email address, можно ввести адрес отправителя электронной почты, т.е. свой собственный адрес (рис. 7-71). Аналогично, кнопка Change my name позволяет отредактировать имя отправителя.

Рис. 7-71. Изменение почтового адреса отправителя

Работа с программой

Если Вы настроили программу таким образом, чтобы она периодически проверяла содержимое Вашего почтового ящика, то, как только в нем будут обнаружены новые сообщения, персонаж программы Max предупредит Вас об этом голосом, а затем прочитает вслух заголовки сообщений. Этот процесс показан на рис. 7-68.

Список заголовков полученных сообщений отображается в верхней части вкладки Main window, показанной на рис. 7-68.

Чтобы программа прочитала содержимое того или иного сообщения, заголовок сообщения нужно выделить мышью, а затем щелкнуть кнопку Read.

Кнопка Delete позволяет удалить выбранное сообщение, а кнопка Launch Email — запустить почтовую программу, которой Вы обычно пользуетесь для работы с электронной почтой.

В нижней части вкладки Main window имеются 4 кнопки.

С помощью кнопки Read clipboard можно попросить персонаж Max прочитать вслух содержимое универсального буфера обмена Clipboard.

Кнопка Check email запускает процесс проверки содержимого почтового ящика, расположенного на сервере провайдера.

С помощью кнопок Minimize и Exit можно, соответственно, свернуть окно программы в системную панель или завершить работу программы.

Щелкнув кнопку Calc, расположенную в правой части вкладки Main window, можно запустить говорящий калькулятор (рис. 7-72).

Рис. 7-72. Говорящий калькулятор

По мере того как Вы щелкаете кнопки этого калькулятора, персонаж программы произносит набираемые Вами цифры и операторы. Если же щелкнуть кнопку с оператором равенства, калькулятор посчитает итоговый результат и произнесет его голосом.

Некоторые важные функции программы доступны через контекстное меню персонажа Max. Чтобы открыть это меню, щелкните изображение персонажа правой клавишей мыши (рис. 7-72).

Рис. 7-72. Меню персонажа программы

Строка Скрыть позволяет убрать изображение персонажа с экрана, не завершая работу программы Speaking Email Deluxe. После этого доступ к функциям программы возможен через главное окно (если оно открыто) или через значок программы, расположенный на системной панели задач.

Если выбрать строку Show main window, то можно отобразить на экране скрытое ранее главное окно программы (рис. 7-68).

В том случае, когда нужно заставить персонаж программы замолчать, выберите из меню строку Stop talking.

В целом программа Speaking Email Deluxe показалась нам достаточно удобной для чтения голосом содержимого почтового ящика. К тому же, после установки соответствующих программных модулей и необходимой настройки эта программа может читать сообщения на русском языке.

Более подробную информацию о работе с программой Вы найдете в электронной справочной системе, поставляющейся в составе Speaking Email Deluxe.

Итоги главы

В этой главе мы рассмотрели различные методы и программы синтеза речи. Мы рассказали о модели компилятивного синтеза и формантно-голосовой модели, каждая из которых имеет свои преимущества и недостатки и свои области применения.

Вы узнали, что модель компилятивного синтеза основана на синтезе речи путем конкатенации (составления) записанных образцов отдельных звуков, произнесенных диктором. Эта модель хорошо работает только в простейших случаях, когда синтезатор должен произносить относительно небольшой и заранее известный набор фраз.

Что же касается формантно-голосовой модели, то она базируется на моделировании речевого тракта человека. Ее можно реализовать с применением нейронных сетей, и она допускает обучение. Мы рассмотрели методику синтеза речи с использованием нейронной сети, реализованные в системе анализа речи SAS.

К сожалению, формантно-голосовая модель не обеспечивает высокого качества синтезированной речи, поэтому в ответственных случаях рекомендуется использовать модель компилятивного синтеза.

В этой главе мы рассмотрели большое количество программ, в которых используется технология синтеза речи. Эти программы умеют читать содержимое текстовых файлов, окон, открытых на рабочем столе операционной системы Microsoft Windows. Они могут автоматически принимать сообщения электронной почты и читать их вслух, облегчая работу с компьютером людям с ограниченными возможностями. Вы можете использовать приведенную информацию при выборе синтезаторов речи для своих офисных информационных систем или для домашнего компьютера.