Синтез и распознавание речи. Современные решения

Хотя эта глава и называется «Системы распознавания речи», в ней мы рассмотрим готовые программы и системы несколько более широкого класса. Это программы голосового управления компьютером, домашним и офисным оборудованием, мобильным телефоном, системы голосового разграничения доступа и другие системы, в которых применяются современные речевые технологии.

Мы расскажем о следующих программах и системах, в которых применяются речевые технологии:

· программы голосового управления компьютером VoiceNavigator, Truffaldino;

· библиотека распознавания голосовых команд VoiceCom;

· комплекс DiVo;

· систему голосового разграничения доступа, разработанную компанией «Центр речевых технологий»;

· программы документирования устных выступлений — компьютерный транскрайбер, системы Нестор и Аллегро;

· программы диктовки текста DragonDictate и Dragon NaturallySpeaking;

· систему распознавания речи, встроенную в пакет Microsoft Office XP.

Скажем сразу, что когда мы работали над этой книгой, нам не удалось найти ни одной доступной и хорошо работающей системы распознавания русской речи. Поэтому мы будем рассказывать о системах диктовки текста, рассчитанных на английский язык в надежде на то, что аналогичные средства в обозримом будущем появятся и для русского языка.

Что же касается синтеза русской речи, то, как Вы увидите из следующей главы, такие системы уже существуют и обладают вполне приемлемым «произношением».

Системы голосового управления

Все системы голосового управления компьютером и другим оборудованием можно условно разделить на два класса.

К первому классу мы будем относить устройства, назначением которых является облегчение работы с компьютером. Такие устройства используются в качестве дополнительного канала управления наряду с основными и традиционными каналами — клавиатура и мышь, а также экран компьютера (который служит каналом обратной связи).

В устройствах второго класса речевой интерфейс является основным и единственным. Эти устройства доступны тем, кто не может работать с клавиатурой и экраном компьютера либо из-за проблем со здоровьем, либо из-за чрезмерной занятости какой-либо работой (например, управлением автомобилем или самолетом).

В этом разделе мы рассмотрим несколько систем голосового управления, созданных в компании «Центр речевых технологий», которую мы упоминали в 3 главе нашей книги. Это программы VoiceNavigator и Truffaldino, библиотека распознавания голосовых команд VoiceKeyKit и система DiVo управления мобильным телефоном в автомобиле без использования рук (hands-free car kit).

Все они, кроме последней, относятся к первому классу, т.к. для работы с ними необходимы традиционные средства ввода и вывода информации. Систему DiVo управления мобильным телефоном в автомобиле можно отнести ко второму классу — для работы с этой системой не нужен ни компьютер, ни экран, ни клавиатура.

Программа VoiceNavigator

Программа VoiceNavigator (рис. 6-1) является типичным представителем программ голосового управления компьютером. Она позволяет пользователю запускать приложения голосом, не дотрагиваясь до клавиатуры, и выполнять произвольно заданные команды.

Рис. 6-1. Программа VoiceNavigator

Перед использованием программы VoiceNavigator ее необходимо обучить, произнеся в микрофон слова команд. Так как программа VoiceNavigator распознает команды по образцам, то команды можно произносить на любом языке и любым голосом.

Чтобы программа начала распознавать голосовые команды, ее необходимо «разбудить», произнеся ключевое слово. После этого программа будет реагировать только на Ваши команды, игнорируя остальные звуки.

В программе есть функция голосового ответа-подтверждения команд. Эта функция позволяет убедиться, что Ваша команда распознана системой и готова для выполнения.

Программа VoiceNavigator нетребовательна к ресурсам компьютера. Вы можете использовать ее в компьютере, оборудованном процессором с тактовой частотой 200 МГц или выше, причем для ввода звуковых команд подойдет любой звуковой адаптер, например, Creative Sound Blaster.

Программа Truffaldino

Программа Truffaldino (рис. 6-2) предназначена для управления домашним или офисным оборудованием, таким как телевизор, домофон, видео-магнитофон, аудио-система, кондиционер, микроволновая печь, система освещения, телефон и т.п.

Рис. 6-2. Программа Truffaldino

Эта программа пригодится людям с ограниченными физическими возможностями, не способными управляться с домашней техникой обычным способом.

После предварительного обучения программа Truffaldino способна распознавать несколько десятков команд, произнесенных на любом языке и любым голосом. Последнее возможно благодаря тому, что команды распознаются по голосовым шаблонам.

Особенностью программы является хорошая работа в условиях шумов. Это обстоятельство имеет большое значение, так как дома или в офисе акустическая обстановка может быть далеко не идеальной.

Помимо ключевой фразы, предназначенной для «пробуждения» программы Truffaldino, имеется функция ограничения доступа. С помощью этой функции Вы сможете заблокировать запуск программы посторонними людьми.

В программе Truffaldino есть функция голосового ответа-подтверждения команд, аналогичная такой же функции программы VoiceNavigator. Эта функция позволяет убедиться, что Ваша команда распознана системой и готова для выполнения.

Системные требования программы Truffaldino аналогичны требованиям программы VoiceNavigator. Однако для управления оборудованием необходимо применение дополнительного устройства, такого как Infra-Red X-tender.

Библиотека распознавания голосовых команд VoiceCom

Библиотека распознавания голосовых команд VoiceCom составляет ядро описанных выше программ VoiceNavigator и Truffaldino. С ее помощью разработчики могут добавить голосовое управление в создаваемые ими приложения.

Разработка собственных средств голосового управления требует специальных знаний. Она может отнять у разработчиков приложений немало времени и сил. Однако воспользовавшись готовой библиотекой VoiceCom, разработчики могут легко добавить в приложения следующие функциональные возможности:

· управление оборудованием с помощью голоса;

· выполнение речевых запросов к базам данных через микрофон или даже по телефону;

· поиск по ключевым словам в звуковых WAV-файлах

Следует отметить, что библиотека VoiceCom позволяет встраивать голосовые функции не только в обычные программы для персональных компьютеров, но и в автономные устройства, оборудованные цифровыми сигнальными процессорами DSP.

Алгоритмы, реализованные в библиотеке распознавания голосовых команд VoiceCom, обладают высоким быстродействием, нетребовательны к объему оперативной памяти и способны адаптироваться к шумам.

Библиотека VoiceCom обеспечивает распознавание команд, произнесенных любым голосом и на любом языке. При этом имеется возможность структурирования для практически неограниченного словаря.

При этом алгоритмы позволяют распознавать 100-200 команд с предварительным обучением для каждого диктора, и 30-50 команд для любого диктора (в режиме, не зависимом от диктора). Если команды произносятся по телефону, то алгоритмы библиотеки VoiceCom позволяют распознать 10-20 слов, произнесенных любым диктором.

Ну и, конечно, в библиотеке реализована возможность активации распознавания команд по ключевому слову, исключающая неожиданные реакции системы на посторонние звуки.

Комплекс DiVo

Известно, что пользование мобильным телефоном во время вождения автомобиля может привести к возникновению аварийной ситуации на дороге.

В большинстве стран Европы, включая Россию, и в ряде штатов США, в целях обеспечения безопасности движения принят закон, требующий от водителей автомобилей использования специального оборудования, позволяющего разговаривать по мобильному телефону без использования рук (в режиме hands-free).

Надо заметить, что компании, выпускающие мобильные телефоны, комплектуют их таким оборудованием. Однако комплекс DiVo (рис. 6-3), разработанный в компании «Центр речевых технологий», значительно превосходит существующие системы по качеству распознавания речи в условиях интенсивных шумов и помех.

Этот комплекс позволяет полностью управлять мобильным телефоном стандарта GSM в салоне автомобиля посредством голосовых команд. Он активизируется при помощи ключевой команды «пробуждения» и позволяет пользоваться мобильным телефоном, не отвлекаясь от управления автомобилем.

Рис. 6-3. Комплекс DiVo

Что входит в состав комплекса DiVo?

Комплект поставки DiVo показан на рис. 6-3. В него входит следующее оборудование:

· компактный центральный блок, выполняющий функции управления, обработки и распознавания речи;

· высококачественный направленный микрофон;

· держатель для мобильного телефона с кабелем питания и разъемом для прикуривателя (комплекс может питаться как от прикуривателя, так и непосредственно от электросети автомобиля);

· кнопка управления системой;

· компактный громкоговоритель;

· кабель отключения звука автомобильной аудио-системы;

· антенный кабель для подключения внешней антенны

Существующая версия комплекса DiVo может работать совместно с мобильными телефонами Ericsson, Nokia и Siemens.

Водитель может выдавать комплексу DiVo до 20 голосовых команд, таких как набор телефонного номера, повтор последнего набиравшегося номера, выбор номера телефона из голосовой телефонной книги, емкость которой составляет 40-50 записей.

Для наполнения телефонной книги комплекса DiVo можно использовать содержимое телефонной книги, хранящейся в памяти мобильного телефона.

Так как в составе комплекса DiVo не предусмотрен монитор (им просто было бы невозможно пользоваться во время вождения автомобиля), все операции выполняются с помощью удобного и разветвленного голосового меню.

Номер можно набирать, диктуя цифры по одной или цепочками, состоящими не более чем из 9 цифр. Выбор нужной записи из голосовой телефонной книги можно сделать либо одной фразой, либо при помощи голосового меню. Существует также возможность голосового набора номера аварийной службы.

Комплекс DiVo может работать в таком режиме, когда он исполняет голосовые команды, произнесенные любым диктором (команды управления можно произносить на русском, английском и немецком языке). При этом предусмотрен авторизованный доступ к голосовой телефонной книге, ограничивающей использование комплекса посторонними людьми.

Что касается «пробуждения» комплекса DiVo, то для этого можно использовать голосовую команду или просто нажать соответствующую кнопку, расположенную на корпусе центрального блока.

Во время простоя комплекс автоматически выключается, что предотвращает ложные срабатывания на посторонние звуковые сигналы. Существует также возможность включения и использование некоторых функций кнопкой, смонтированной на колонке рулевого управления автомобиля.

Комплекс DiVo может работать в режиме полного дуплекса. При этом он обеспечивает подавление эха и высокоэффективную очистку сигнала от шумов. Это устраняет влияние на работу системы шумов, сопровождающих движение транспорта, гул колес и ветра, шум кондиционера или обогревателя и др.

Кроме того, на время телефонного разговора предусмотрено автоматическое отключение звука автомобильной аудиосистемы.

Голосовое разграничение доступа

Используя современные речевые технологии, можно создавать системы голосового разграничения доступа. Такие системы могут реагировать на парольные фразы (типа «Сезам, откройся!») или на особенности голоса того или иного человека.

Компания «Центр речевых технологий» создала библиотеку разграничения доступа по голосу VoiceKey Kit, которую можно легко встроить в любые приложения. Это могут быть офисные приложения, компьютерные игры, системы «родительского контроля» и др.

Очевидным достоинством системы голосового разграничения доступа является простота использования — нет необходимости запоминать пароль, и пароль нельзя украсть.

Однако следует заметить, что недостаточная устойчивость любых биометрических систем разграничения доступа к попыткам взлома несколько ограничивает их применение. Для взлома системы голосового разграничения доступа можно использовать, например, простую магнитофонную запись. Тем не менее, голосовое разграничение доступа позволяет добавить в защищаемый продукт еще одну «линию обороны» от атак злоумышленников.

Документирование устных выступлений

Другая область применения речевых технологий — компьютерное документирование устных выступлений на совещаниях, конференциях и других подобных мероприятиях.

Компания «Центр речевых технологий» создала ряд программных и аппаратно-программных комплексов, предназначенных для компьютерного документирования, записи и обработки устных выступлений.

Надо сказать, что все эти комплексы, к сожалению, не содержат в себе полновесных систем распознавания русской речи, позволяющих получать на выходе текстовые документы. Тем не менее, они значительно упрощают подготовку таких документов с использованием обычного стенографирования.

Компьютерный транскрайбер

Компьютерный транскрайбер (transcriber), созданный в компании «Центр речевых технологий», представляет собой компьютерный цифровой магнитофон, управляемый из редактора текста (рис. 6-4).

Такое устройство, разработанное специально в интересах служб делопроизводства, повышает скорость и комфортность документирования звуковых записей устной речи. Оно будет полезно при подготовке сводок, протоколов совещаний, переговоров, лекций, интервью, в безбумажном делопроизводстве и во многих других аналогичных случаях.

Его отличает простота и удобство использования, а также доступность для непрофессиональных операторов. Транскрайбер повышает производительность работы оператора благодаря сочетанию специализированного текстового редактора с сервисом цифрового магнитофона.

Рис. 6-4. Транскрайбер

Возможности транскрайбера

Что может компьютерный транскрайбер?

Прежде всего, транскрайбер автоматически осуществляет высококачественный ввод в компьютер речевых сигналов, поступающих с линейного выхода магнитофона, диктофона или иной звуковоспроизводящей аппаратуры. При этом обеспечивается высокое качество звука, необходимое для выполнения таких работ, как, например, идентификация диктора по голосу в ходе проведения криминалистических экспертиз.

Транскрайбер, созданный в компании «Центр речевых технологий», способен не просто записывать звуковой сигнал, но и очищать его от шума. Это упрощает работу с фонограммами, сделанными в плохих акустических условиях.

Записанный звуковой сигнал хранится на жестком диске компьютера. Если проводить своевременное резервное копирование данных, то при таком способе хранения достигается гарантия полной сохранности сделанной звукозаписи. Что же касается обычных магнитофонных лент, то по мере проигрывания и хранения качество записанного на них звука быстро ухудшается.

Одновременно с записью звукового сигнала осуществляется его воспроизведение.

Встроенный цифровой магнитофон

Компьютерный цифровой магнитофон транскрайбера может выполнять различные функции, характерные для профессиональных диктофонов и магнитофонов:

· регулировка уровня записи и воспроизведения фонограмм;

· остановка воспроизведения с откатом;

· мгновенная перемотка;

· прослушивание в режиме «кольца»;

· работа по меткам времени;

· замедленное и ускоренное воспроизведение без искажения тембра голоса;

· сверка фрагментов текста и соответствующих фрагментов речевой фонограммы

Замедленное воспроизведение речи, выполняемое без искажения тембра голоса (характерного для обычных магнитофонов) позволяет работать с неразборчивыми речевыми фрагментами. С этой целью можно также запустить многократное воспроизведение одного и того же фрагмента речи в режиме «кольца».

Ускоренное воспроизведение дает возможность пропустить паузы или малозначительные участки фонограммы, а также позволяет находить нужные фрагменты записанной речи.

Транскрайбер предоставляет оператору весьма полезную возможность сверки набранного текста и соответствующего этому тексту фрагмента фонограммы.

При этом связь текста и речи устанавливается автоматически. Если оператор укажет курсором мыши фрагмент текста, транскрайбер автоматически найдет соответствующий звуковой фрагмент речевого сигнала для прослушивания и сверки с текстом.

Что касается аппаратного обеспечения компьютерного транскрайбера, то он может поставляться с профессиональным звуковым адаптером или обычным звуковым адаптером, таким, например, как Creative Sound Blaster. Дополнительно транскрайбер может комплектоваться ножной педалью для управления функциями цифрового магнитофона.

Встроенный редактор текста

Текстовый редактор, встроенный в компьютерный транскрайбер, способен автоматически форматировать текст, расставлять переносы и работать с блоками текста. Для ускорения выполнения однотипных операций, таких как вставка заранее подготовленных фрагментов текста, можно создавать макрокоманды.

В состав текстового редактора может входить система автоматической проверкой орфографии русского языка, созданная компанией «Информатик».

Системы Нестор и Аллегро

Описанный выше компьютерный транскрайбер предназначен для использования только одним оператором. Компания «Центр речевых технологий» разработала также две многопользовательские системы синхронного документирования — Нестор и Аллегро.

Система Нестор предназначена для многоканальной цифровой звукозаписи и оперативной текстовой расшифровки нескольких устных выступлений и фонограмм речи по принципу распределенной обработки (стенографирования). Комплекс Нестор обеспечивает синхронную обработку до 24 акустических каналов (выступающих и/или фонограмм речи).

Структурная схема системы Нестор показана на рис. 6-5.

В эту систему входит компьютер станции звукозаписи, оборудованный 4-каналоным звуковым адаптером и специализированным программным обеспечением и звуковой сервер для архивирования звуковых записей на диски CD-RW. Комплекс Нестор может комплектоваться ножной педалью для управления воспроизведением звукового сигнала.

В системе предусмотрены рабочие места администратора, руководителя группы и операторов. В зависимости от вариантов поставки в комплексе может быть от 3 до 50 рабочих мест операторов, от 1 до 8 рабочих мест руководителей групп и 1-2 рабочих места администратора. Таким образом, система Нестор пригодна для автоматизированного документирования довольно крупных совещаний и форумов.

Рис. 6-5. Система Нестор

Как работает система Нестор?

Поступающий на ее вход речевой сигнал записывается на жесткий диск компьютера. Затем он разбивается на фрагменты и распределяется между операторами-стенографистами, выполняющими его прослушивание и расшифровку.

Полученные таким образом участки текста автоматически соединяются в единый документ, который после проверки может быть сохранен и распечатан.

Система «Аллегро» цифровой звукозаписи и оперативной текстовой расшифровки устных выступлений и фонограмм речи по принципу распределенной обработки (стенографирования) также создана компанией «Центр речевых технологий» (рис. 6-6).

Рис. 6-6. Система Аллегро

Эта система обеспечивает синхронную обработку одного акустического канала (выступающего) силами трех-пяти операторов-стенографистов. Она доказала свою высокую эффективность при эксплуатации в органах законодательной и исполнительной власти России и субъектов федерации.

Принципы ее работы аналогичны принципам работы только что упомянутой системы «Нестор».

Программы для диктовки текста

Распознавание речи чаще всего используется для выполнения голосовых команд. Однако сегодня существуют мощные приложения, способные не только распознавать и выполнять команды, но и распознавать речь в режиме диктовки.

Как правило, такие приложения либо снабжаются собственным редактором текста, либо способны работать с любыми редакторами текста и таблиц, например, такими, как Microsoft Word и Microsoft Excel.

Кроме того, система распознавания речи (увы, не способная работать с русским языком), входит в комплект современного офисного пакета Microsoft Office XP.

Программа DragonDictate

В качестве примера системы распознавания речи, способной работать как в режиме команд, так и в режиме диктовки текста, мы приведем программу DragonDictate. Она получила свое развитие в виде линейки программ Dragon NaturallySpeaking, информация о которых доступна в Интернете по адресу http://www.dragonsys.com.

После установки и настройки программы DragonDictate и Dragon NaturallySpeaking позволяют запускать при помощи голоса приложения Windows, управлять работой этих приложений в командном режиме, а также диктовать текст. К сожалению, программы DragonDictate и Dragon NaturallySpeaking не работают с русским языком, что сдерживает их применение в России.

Установка и настройка

Начальная установка и настройка программы DragonDictate достаточно проста и не отнимает много времени.

После запуска программы установки на экране появляется первое окно мастера установки, показанное на рис. 6-7.

Рис. 6-7. Создание профиля для нового пользователя

Здесь перечислены действия, которые нужно будет выполнить пользователю при установке программы. Пользователь должен ввести свое имя, указать тип своего голоса, правильно расположить, настроить и проверить микрофон и запустить процедуру быстрой настройки программы на голос говорящего.

Имя пользователя вводится в диалоговом окне, показанном на рис. 6-8.

Рис. 6-8. Имя нового пользователя

В дальнейшем можно будет добавить других пользователей, выполнив индивидуальную настройку программы на голос каждого пользователя. Эта возможность просто необходима, если с компьютером работают несколько пользователей, и всем им нужна система распознавания речи.

Далее для нового пользователя нужно выбрать тип голоса (рис. 6-9).

Рис. 6-9. Выбор типа голоса

При этом выделяются голоса с высокой тональностью High Voice (женский и детский) и с низкой тональностью Low Voice (мужской).

Далее мастер установки обращает внимание пользователя на необходимость правильного расположения микрофона, который должен находиться в уголке рта, как это показано на рис. 6‑10.

Рис. 6-10. Тестирование микрофона

На следующем этапе пользователю предлагается произнести три раза фразу «Testing microphone» (рис. 6-11).

Рис. 6-11. Микрофон проверен

Это нужно сделать голосом с нормальной громкостью, не увеличивая громкость или не уменьшая ее специально.

После настройки на экране появляется окно мастера с сообщением о том, что профиль пользователя был успешно создан, и теперь надо переходить в режим обучения Quick Enrollment для настройки системы распознавания речи на голос пользователя (рис. 6-12).

Рис. 6-12. Переход в режим обучения Quick Enrollment

В режиме обучения на экране появляется два окна. Первое из этих окон показано на рис. 6-13.

Рис. 6-13. Режим обучения

В этом окне появляются фразы, которые нужно произносить в микрофон один, два или три раза. По мере выполнения этой процедуры в нижней части окна «зажигаются» зеленые лампочки, сигнализирующие об удачной попытке обучения.

Другое окно (рис. 6-14) играет роль управляющей консоли.

Рис. 6-14. Управляющая консоль для обучения

Здесь пользователь может запускать или останавливать обучение, а также настраивать различные параметры обучения.

Во время работы мастера установки в правой верхней части экрана видна голосовая инструментальная панель (рис. 6-15).

Рис. 6-15. Голосовая инструментальная панель

Пользователь управляет работой программы DragonDictate при помощи этой панели (а также, разумеется, при помощи голоса). Во время обучения в панели отображается надпись Train Word in Voicebar, обозначающая режим обучения распознаванию слов.

Когда процесс обучения будет завершен, на экране появится последнее окно мастера установки и настройки, показанное на рис. 6-16.

Рис. 6-16. Мастер настройки параметров завершил свою работу

Для завершения работы мастера щелкните кнопку Finish.

Обучение работе с системой

Прежде чем работать с любой существующей системой распознавания голоса, необходимо прочитать документацию к этой системе или пройти небольшой курс обучения. В комплекте с программой DragonDictate поставляется специальный интерактивный учебник.

Этот учебник не только рассказывает о работе с системой, но и дает возможность попрактиковаться в выполнении основных действий (рис. 6-17).

Рис. 6-17. Система DragonDictate содержит интерактивный учебник

Курс обучения состоит из шести уроков:

· способы использование микрофона;

· приемы диктовки текста;

· коррекция ошибок распознавания слов;

· использование истории произнесенных слов;

· управление приложениями;

· исправление различных ошибок

Если Вы решили использовать программу DragonDictate в своей работе, имеет смысл потратить некоторое время на изучение ее возможностей.

Основные приемы работы с программой DragonDictate

Детальную информацию о приемах работы с программой DragonDictate Вы найдете в документации и справочной системе этой программы. Мы рассмотрим только самые основные моменты, необходимые для того чтобы оценить возможности программы DragonDictate.

Включение и выключение микрофона

Если микрофон постоянно включен, система распознавания речи может реагировать на посторонние шумы различного рода. В зависимости о того, в каком режиме работает программа (в командном режиме или в режиме диктовки) эти шумы могут приводить либо к выполнению ложных команд, либо к появлению «мусора» в редактируемом документе.

Вы можете включать и выключать микрофон с помощью кнопки с изображением микрофона, щелкая ее левой клавишей мыши, либо с помощью клавиши +, расположенной на дополнительной клавиатуре.

Для голосового управления микрофоном используйте команды Wake Up и Go to Sleep. Первая из этих команд включает микрофон, а вторая — выключает.

Распознанная и выполненная команда отображается в правой части инструментальной голосовой панели и заключена в квадратные скобки. На рис. 6-18 показан результат выполнения команды Go to Sleep, а на рис. 6-19 — результат выполнения команды Wake Up.

Рис. 6-18. Результат выполнения команды Go to Sleep.

Рис. 6-19. Результат выполнения команды Wake Up.

Переключение режимов

Как мы уже говорили, программа DragonDictate может работать в двух режимах — в командном режиме и в режиме диктовки.

Для переключения программы в командный режим необходимо произнести команду Command Mode, а для переключения в режим диктовки — команду Dictate Mode.

Диктовка текста

Как мы только что сказали, для переключения в режим диктовки необходимо выдать голосовую команду Dictate Mode. Однако перед этим при помощи голосовой команды Вы можете запустить приложение, в котором будет создаваться или редактироваться текстовый документ. Например, для запуска программы Word можно выдать команду BringUp Word.

Далее нужно будет диктовать текст по словам, произнося из раздельно. Вставка знаков препинания выполняется при помощи голосовых команд. Диктовать нужно с обычной громкостью.

Распознавая слова, программа DragonDictate предлагает пользователю выбрать нужное слово из списка слов с похожим звучанием (рис. 6-20).

Рис. 6-20. Диктовка текста для приложения WordPad

Выбор можно сделать мышью или голосом, произнеся команду типа Choose 1 (для выбора первого варианта из предложенного списка), Choose 2 (для выбора второго варианта) и т.д.

Дополнительное обучение произношению слов

Если программа DragonDictate плохо понимает произносимые Вами слова, проведите ее дополнительное обучение. На это обучение, однако, может уйти немало времени, так как Вам будет предложено произнести более 700 слов. К счастью, процесс обучения можно прервать в любой момент и затем продолжить с прерванного места.

Для запуска обучения щелкните левой клавишей мыши меню Voice Menu, расположенное в левой части голосовой инструментальной панели (рис. 6-19) и выберите из меню Tools строку Quick Training. На экране появится одноименное диалоговое окно, показанное на рис. 6-21.

Рис. 6-21. Обучение системы распознавания

Щелкнув кнопку Start для начала обучения, Вы увидите окна, показанные ранее на рис. 6-13 и 6-14. При помощи этих окон Вам нужно будет обучить программу DragonDictate распознавать слова, относящиеся к четырем группам:

· слова для исправления ошибок;

· команды;

· слова для режима диктовки;

· дополнительные слова.

В любой момент Вы можете отредактировать словарь команд, который используется программой DragonDictate. Для этого нужно запустить приложение Vocabulary Manager, главное окно которого показано на рис. 6-22.

Рис. 6-22. Программа управления словарем

В левой части этого окна находится древовидное меню, с помощью которого можно управлять группами слов. Для примера мы раскрыли группу слов, предназначенную для управления текстовым процессором Microsoft Word. Как видите, эта группа содержит большое количество команд, имеющих свою иерархию.

Если дважды щелкнуть название команды левой клавишей мыши, на экране появится диалоговое окно, с помощью которого можно отредактировать команду. Это окно показано на рис. 6-23.

Рис. 6-23. Редактирование команды

Щелкнув кнопку Train, можно обучить программу DragonDictate распознавать данную команду.

Элементы управления, расположенные в группе Resulting Action, позволяют назначить команде то или иное действие. Если отмечен флажок Type Following Keystrokes, в результате выполнения команды будет имитироваться нажатие заданной комбинации клавиш. При помощи флажка Execute Following Script можно сопоставить команде любой программный сценарий, например, команду запуска приложения или выдачу команды приложению при помощи программного интерфейса динамического обмена данными (Dynamic Data Exchange, DDE), как это показано на рис. 6-23.

Программа Dragon NaturallySpeaking

Когда мы работали над этой книгой, стала доступна новая версия программы распознавания речи Dragon NaturallySpeaking стоимостью около $200. Эта программа расширяет и дополняет возможности только что описанной программы DragonDictate. Разработкой этой программы занимается компания ScanSoft.

Программа Dragon NaturallySpeaking устанавливается и настраивается аналогично программе DragonDictate. На этапе обучения пользователю предлагается прочитать в микрофон небольшой отрывок текста, после чего программа запоминает особенности его голоса. Можно потренировать программу подольше, дополнив базовый словарь, содержащий сотни тысяч слов.

При обучении предусмотрена возможность импортирования словосочетаний, а также слов из офисных документов и документов HTML.

При установке можно выбрать язык распознавания (рис. 6-24), но, к сожалению, даже эта новая версия программы не может работать с русским языком.

Рис. 6-24. Выбор языка для распознавания речи

Программа Dragon NaturallySpeaking удобна в работе. С помощью голосовых команд можно исправлять ошибки, допущенные при диктовке (на этот случай предусмотрена команда Scratch that). В процессе диктовки можно перемещаться по документу и форматировать его.

Распознавание речи в Microsoft Office XP

Осознавая актуальность технологий распознавания и синтеза речи, компания Microsoft встроила в свои операционные системы Microsoft Windows 2000 и Microsoft Windows XP специальный речевой программный интерфейс Speech API.

Следует, однако, заметить, что наличие этого интерфейса не означает, что перечисленные выше операционные системы способны распознавать речь или говорить. Интерфейс только позволяет разработчикам систем распознавания и синтеза речи встраивать их в операционную систему стандартным способом.

В составе американского, японского и упрощенного китайского пакета офисных приложений Microsoft Office XP поставляются средства распознавания и синтеза речи. Что же касается русской версии Microsoft Office XP, то, к большому сожалению, там эти средства отсутствуют. Поэтому пока Вы не сможете диктовать программе Microsoft Word текст на русском языке. Но не исключено, что со временем ситуация с распознаванием русской речи изменится в лучшую сторону.

В оставшейся части главы мы будем рассказывать про американскую версию пакета Microsoft Office XP.

Речевые возможности пакета

Как мы уже говорили, существующие на момент создания этой книги версии пакета Microsoft Office XP способны говорить и слушать на английском, японском и упрощенном китайском языках.

Средства распознавания речи, поставляющиеся в составе Microsoft Office XP, можно использовать со всеми приложениями пакета, такими как Microsoft Word, Microsoft Excel и т.д. И хотя они не предоставляют возможности работать с этими приложениями без помощи рук, пользователь сможет управлять голосом такими элементами управления и объектами, как меню, инструментальные панели, диалоговые окна и панель задач. Кроме того, пользователь может выдавать диктовать текст и выдавать различные голосовые команды, например, команды форматирования текста.

Вместе с пакетом Microsoft Office XP поставляются и средства синтеза речи. При чтении вслух текста на английском языке эти средства позволяют получить достаточно высокое качество речи (хотя, конечно, оно все же заметно ниже, чем качество естественной речи).

Речевое управление офисными пакетами и средства диктовки текста особенно пригодится людям с ограниченными возможностями. Хотя при этом использование клавиатуры и мыши полностью не исключается, наличие голосового интерфейса может повысить скорость работы с офисными документами.

Требования к оборудованию компьютера

Прежде чем пробовать систему распознавания речи пакета Microsoft Office XP, убедитесь, что Ваш компьютер удовлетворяет перечисленным ниже требованиям.

Прежде всего, компьютер должен быть оборудован головными телефонами со встроенным микрофоном. Такое устройство рекомендуется для применения с любыми программами распознавания речи, о чем мы уже говорили в нашей книге.

Компьютер должен быть оснащен процессором с тактовой частотой не менее 400 МГц и оперативной памятью объемом не меньшим, чем 128 Мбайт. Кроме того, на диске компьютера должна быть установлена операционная система Microsoft Windows 98/ME/NT/2000/XP или операционная система Microsoft Windows более новой версии, а также браузер Microsoft Internet Explorer версии 5.0 или более новой версии.

Установка средств распознавания речи

Чтобы испытать в работе средства распознавания и синтеза речи, встроенные в пакет Microsoft Office XP, Вам нужно выбрать эти средства при установке пакета или добавить их позже.

На рис. 6-25 мы показали диалоговое окно выбора устанавливаемых компонентов пакета Microsoft Office XP американской версии. Чтобы в пакете появилась возможность работы с речью, необходимо раскрыть папку Office Shared Features, а затем раскрыть в ней папку Alternative User Input и выбрать строку Speech. Заметим, что в аналогичной панели выбора компонентов русской версии Microsoft Office XP такой строки нет.

Рис. 6-25. Установка модулей распознавания и синтеза речи

Если Вы уже установили пакет Microsoft Office XP без речевых компонентов, это можно сделать при помощи меню Tools любого офисного приложения, например, Microsoft Word или Microsoft Excel. Выберите из этого меню строку Speech (рис. 6-26), после чего следуйте инструкциям, появляющимся на экране. Средства работы с речью будут установлены и станут доступны во всех приложениях Microsoft Office XP.

Рис. 6-26. Включение речевого ввода

Обучение системы распознавания речи

Система распознавания речи, встроенная в пакет Microsoft Office XP, требует обучения на голос пользователя. Если Вы только что установили речевые компоненты, то на экране появится первое диалоговое окно мастера обучения, показанное на рис. 6-27.

Рис. 6-27. Тренировка системы распознавания речи

Здесь Вам предлагается на выбор прочитать в микрофон один из восьми текстов. В процессе чтения система распознавания речи настроится на Ваш голос. При необходимости позже можно будет выполнить дополнительное обучение, прочитав все остальные тексты. Чем больше времени Вы затратите на обучение, тем лучше компьютер будет «понимать» Вашу речь.

Во второй диалоговой панели, показанной на рис. 6-28, мастер обучения подсказывает Вам, в каких условиях необходимо проводить обучение.

Рис. 6-28. Подготовка к тренировке

Прежде всего, следует убедиться, что в помещении, где Вы находитесь, нет посторонних шумов, и что Вас не отвлекут от обучения. Лучше всего, если Вы будете находиться в комнате один на один с компьютером, отключив телефоны.

Кроме того, нужно поместить микрофон в правильное положение. Лучше всего, если микрофон будет находиться на небольшом расстоянии от уголков губ, но не прямо перед губами. Последнее требование позволит избавиться от шума выдыхаемого при разговоре воздуха.

Убедившись, что условия для обучения подходящие, щелкните кнопку Далее для запуска процесса обучения. На экране появится диалоговое окно, показанное на рис. 6-29.

Рис. 6-29. Идет тренировка системы распознавания речи

В верхней части этого окна будет появляться текст, который Вы должны произнести. Произнесенные слова будут вначале выделены синим фоном, который затем станет черным. Слова, выделенные черным фоном, программе удалось распознать. Если программе не удалось распознать слово или слова с первого раза, повторите их еще раз, делая паузы между словами. При этом старайтесь говорить естественным голосом с нормальной громкостью и скоростью.

При необходимости процесс обучения может быть приостановлен при помощи кнопки Pause, а затем продолжен.

Обучение программы требует определенного терпения и выдержки. Как минимум, Вам потребуется 15 минут для выполнения одного цикла обучения. Постарайтесь довести обучение до конца, и лишь после этого оценивайте качество распознавания речи.

Как Вы увидите ниже, систему распознавания речи Microsoft Office XP можно обучить при помощи любого текста, не ограничивая себя текстами, показанными на рис. 6-27.

Инструментальная панель Language Bar

После того как Вы установите речевые модули офисного пакета Microsoft Office XP, в правой верхней части экрана появится окно инструментальной панели Language Bar, показанное на рис. 6-30.

Рис. 6-30. Инструментальная панель Language Bar

Эта панель выполняет сразу несколько функций, например, позволяет переключать раскладки клавиатуры и открывает доступ к некоторым другим возможностям и программам. Нас будут интересовать только средства этой панели, имеющие отношение к распознаванию и синтезу речи.

Кнопка Микрофон позволяет включать и выключать микрофон. Вы можете выключить микрофон и при помощи голоса, для чего нужно произнести слово microphone.

Вы можете придать панели Language Bar компактный вид, более удобный для работы. Для этого щелкните окно панели правой клавишей мыши, а затем выберите из контекстного меню строку Текстовые метки. После этого инструментальная панель Language Bar примет вид, показанный на рис. 6-31.

Рис. 6-31. Компактный вид инструментальной панели Language Bar

В правой части панели есть кнопка с изображением маленького треугольника, направленного острием вниз. Щелкнув эту кнопку, Вы откроете меню, показанное на рис. 6-32.

Рис. 6-32. Меню панели Language Bar

С помощью строк этого меню можно выполнить исправление в тексте, введенного при помощи голоса (строка Исправление), запустить синтезатор речи для чтения выделенного фрагмента текста (Прочтите текст) или приостановить работу этого синтезатора (Приостановите разговор).

Для работы с программами распознавания и синтеза речи выберите в этом меню строку Программы речи, чтобы слева от этой строки появилась галочка.

Если в панели Language Bar щелкнуть кнопку Программы (третья слева на рис. 6-31), на экране появится меню речевых программ, показанное на рис. 6-33.

Рис. 6-33. Меню речевых программ

Выбрав из этого меню строку Тренировка, можно выполнить обучение системы распознавания речи, о котором мы только что Вам рассказывали. С помощью строки Learn from document вам удастся потренировать систему распознавания речи на произвольном тексте. Это имеет смысл сделать, если Вы, например, будете часто диктовать текст, содержащий большое количество специфических терминов.

При необходимости Вы сможете вручную отредактировать словарь системы распознавания речи, воспользовавшись строкой Добавление и удаление слов.

Мы рекомендуем Вам включить режим отображения речевых сообщений, отметив флажком строку Показать речевые сообщения. В режиме диктовки текста эти сообщения помогут Вам улучшить качество распознавания, сообщая о необходимости говорить громче (сообщение Too soft), тише (Too loud) или медленнее (Too fast). Кроме того, система распознавания речи может попросить Вас повторит сказанное еще раз (What was that?).

Меню речевых программ позволяет вам сохранить данные речи и отключить команды диктовки, а также сменить пользователя (что нужно, если компьютером пользуются несколько человек и все они желают использовать речевые возможности пакета Microsoft Office XP).

Настройка параметров речевых программных модулей

Речевой программный интерфейс операционной системы Microsoft Windows допускает одновременную установку и поочередное использование нескольких систем распознавания и синтеза речи. Кроме того, можно выполнить индивидуальную настройку параметров работы этих систем.

Для настройки речевых параметров откройте окно панели управления и щелкните дважды значок Речь (рис. 6-34).

Рис. 6-34. Аплет в управляющей панели для настройки параметров речи

На экране появится диалоговое окно Свойства речи, показанное на рис. 6-35.

Рис. 6-35. Настройка свойств речи

В этом окне имеются две вкладки — Распознавание речи и Преобразование текста в речь. Первая из этих вкладок позволяет выбирать модули распознавания речи и настраивать параметры их работы, а вторая — делать те же самые действия для программных модулей синтеза речи.

В поле Язык имеется список модулей распознавания речи. В комплекте с американским пакетом Microsoft Office XP поставляется только один такой модуль с названием Microsoft English ASR Version 5 Engine, который, увы, работает только с английским языком. Его параметры не поддаются настройке.

Вы, однако, можете настроить параметры индивидуальных профилей, создаваемых для пользователей компьютера. По умолчанию создается один такой профиль, дополнительные профили можно добавить при помощи кнопки Создать. С помощью кнопки Обучение можно запустить обучение распознаванию речи для любого выбранного профиля (при установке Вы уже выполнили такое обучение для профиля по умолчанию).

Настройка параметров профиля выполняется при помощи кнопки Параметры. Соответствующее диалоговое окно Recognition Profile Settings показано на рис. 6-36.

Рис. 6-36. Настройка профиля распознавания речи

В окне настройки профиля распознавания речи Вы можете регулировать чувствительность к произношению (Pronunciation Sensitivity), выбрать оптимальный баланс между точностью и скоростью распознавания речи (Accuracy vs. Recognition Response Time). Кроме того, можно включить режим фоновой адаптации системы распознавания речи к голосу диктора (флажок Background Adaptation).

Если компьютер оснащен мощным процессором, можно сделать выбор в пользу лучшего качества распознавания речи. Режим адаптации позволит системе постепенно «привыкать» к голосу пользователя, улучшая качество распознавания.

Вернувшись к диалоговому окну, показанному на рис. 6-35, заметим, что здесь прим помощи кнопки Настройка микрофона можно запустить мастер настройки микрофона. Напомним, что от правильного выбора и настройки параметров микрофона в немалой степени зависит качество распознавания речи.

Первое окно мастера настройки микрофона показано на рис. 6-37.

Рис. 6-37. Мастер настройки микрофона

Здесь Вам рекомендуется проверить подключение микрофона и расположить его правильным образом около рта.

Щелкнув кнопку Далее, Вы попадете во второе окно мастера настройки микрофона, показанное на рис. 6-38.

Рис. 6-38. Регулировка чувствительности

Здесь Вы сможете проверить и, при необходимости, принять решение о необходимости настройки чувствительности микрофона. Произнесите в микрофон предложение «I am using Microphone Wizard. It is adjusting the volume of my microphone», наблюдая за указателем уровня сигнала, расположенного в средней части окна.

Если чувствительность микрофона настроена правильно, при нормальном уровне речи указатель уровня будет находиться в зеленой области. В том случае, когда указатель уровня не передвигается, не доходит до зеленого уровня или попадает в красный уровень, нужно отрегулировать чувствительность микрофона. Это можно сделать, щелкнув кнопку Аудио вход в окне, показанном на рис. 6-35.

Убедившись в том, что чувствительность микрофона настроена правильно, щелкните в окне регулировки чувствительности (рис. 6-38) кнопку Далее для перехода ко второму окну мастера настройки микрофона, показанному на рис. 6-39.

Рис. 6-39. Проверка настройки микрофона

Здесь Вам нужно произнести обычным голосом предложение «This papaya tastes perfect». Ваш голос будет записан и через некоторое время воспроизведен через головные телефоны. Убедитесь, что при воспроизведении записанное предложение звучит именно так, как Вы его произносили. В противном случае отрегулируйте громкость или повторите регулировку чувствительности микрофона.

Настройка синтезатора речи

О принципах работы синтезаторов речи и программах синтеза речи мы расскажем в следующих главах нашей книги. Однако, забегая вперед, скажем, что при помощи вкладки Преобразование текста в речь диалогового окна Свойства речи (рис. 6-40) можно настроить некоторые параметры работы синтезатора речи.

Рис. 6-40. Настройка синтезатора речи

Прежде всего, при помощи списка Выбор голоса можно выбрать голос, которым будет читаться текст. Хотя в составе пакета Microsoft Office XP имеются только голоса, «умеющие» говорить на английском языке, в Интернете можно найти и бесплатно загрузить модули синтеза речи для русского языка.

На вкладке Преобразование текста в речь можно опробовать работу синтезатора речи, набрав предложение в поле Использовать следующий текст для пробы голоса, а затем щелкнув кнопку Проба голоса.

При помощи движка Скорость голоса можно изменять темп речи.

Диктовка текста

Скажем сразу, что пока еще компьютер не в состоянии полностью заменить секретаря-машинистку. При наличии соответствующего аппаратного интерфейса компьютер мог бы заваривать неплохой кофе, но с такой работой, как самостоятельная печать документов под диктовку ему пока не справиться.

Тем не менее, существующие системы распознавания речи для некоторых языков (в список этих языков, увы, не входит русский) способны оказывать существенную помощь при вводе текстовых документов. Рассмотренные выше программы DragonDictate и Dragon NaturallySpeaking, а также средства распознавания речи, встроенные в Microsoft Office XP, могут работать в режиме диктовки текста. И хотя они не позволяют выполнять эту работу без клавиатуры и мыши, все же их применение может ускорить набор текста, особенно для людей с ограниченными возможностями.

Переключение режимов

Как мы уже говорили, система распознавания речи, поставляющаяся в составе Microsoft Office XP, способна работать в командном режиме и в режиме диктовки текста. Для перехода от одного режима к другому необходимо использовать соответствующие кнопки на инструментальной панели Language Bar. При активном приложении Microsoft Office в этой панели появится кнопка переключения режимов.

Переключение режимов можно осуществлять и голосом. Для перехода в режим диктовки надо произнести слово dictation, а для перехода в режим команд — слова voice command.

Предполагается, что ввод текста осуществляется в режиме диктовки, а его форматирование — в командном режиме.

Процесс распознавания текста

Когда Вы диктуете текст, в окне ввода текста офисного приложения появляется полоса голубого цвета с точками, показанная на рис. 6-41.

Рис. 6-41. Диктовка текста

По мере распознавания текста эта полоса будет замещаться словами. Во время диктовки Вам необязательно дожидаться, пока все произнесенные слова будут распознаны. Система будет выполнять распознавание в фоновом режиме.

Диктуйте текст обычным голосом, не делая паузу между словами. Система распознавания речи, поставляющаяся в составе пакета Microsoft Office XP, способна распознавать слитную речь. Более того, иногда ей удается лучше распознавать последовательность слов, если они произнесены слитно, а не раздельно.

Если качество распознавания Вас не удовлетворяет, следите за сообщениями, появляющимися в правой части инструментальной панели Language Bar. Возможно, Вы говорите слишком тихо или напротив, слишком громко. При необходимости проведите дополнительное обучение системы распознавания текста, о чем мы говорили выше.

Работа с элементами пользовательского интерфейса и форматирование текста

Если Вам нужно работать с меню, диалоговыми окнами или инструментальными панелями, перейдите в командный режим. Произнесите название меню, строки меню, окна или панели, и система распознавания выполнит над ними необходимую операцию. Подробная информация о форматировании текста и выполнении других голосовых команд приведена в справочной системе пакета Microsoft Office XP.

В качестве примера приведем последовательность голосовых команд, необходимых для изменения шрифтового оформления. Если нужно выбрать шрифт Times New Roman, сделайте следующее:

· перейдите в командный режим, сказав фразу voice command;

· откройте меню Формат, сказав format;

· откройте диалоговое окно Шрифт, сказав font;

· измените шрифт, сказав Times New Roman;

· закройте диалоговое окно Шрифт, сказав OK.

Предварительно необходимо выделить текст при помощи мыши или клавиатуры. Можно выделить фрагменты текста и голосом.

Для выделения следующего слова нужно произнести команду select next word, для выделения последнего слова в строке — команду select last word. Чтобы выделить следующую строку, требуется произнести команду select next line, а для выделения последней строки — команду select last line. Можно также выделить весь параграф, если произнести команду select paragraph.

Некоторые часто применяемые операции форматирования можно выполнить проще.

Если, например, нужно выделить фрагмент текста жирным шрифтом или подчеркиванием, достаточно перейти в командный режим, выделить текст мышью или клавиатурой, а затем произнести, соответственно, слово bold или underline.

В том случае, когда нужно изменить шрифт выделенного фрагмента текста, можно произнести в командном режиме слово font, а затем название шрифта, например, Times New Roman.

Другие примеры Вы найдете в документации к пакету Microsoft Office XP и в справочной системе.

Заметим, что в командном режиме в правой части инструментальной панели Language Bar отображается название последней команды, которую системе удалось распознать.

Исправление ошибок

В процессе диктовки текста неизбежно будут возникать ошибки. Для их исправления в системе распознавания речи пакета Microsoft Office XP предусмотрены простые и удобные в использовании средства, предполагающие использование как голосовых команд, так и операций, выполняемых с помощью мыши и клавиатуры.

В том случае, если Вы ошиблись при диктовке, можно удалить только что введенный текст. Для этого достаточно произнести фразу scratch that.

Можно щелкнуть ошибочный фрагмент текста правой клавишей мыши и затем выбрать из контекстного меню правильный вариант из числа предложенных системой распознавания речи. Можно, разумеется, использовать и обычные средства коррекции грамматических ошибок, встроенные во все программы пакета Microsoft Office XP.

Для проверки ошибок в режиме диктовки нужно произнести фразу spelling mode, выдержать небольшую паузу, а затем скорректировать ошибку, произнеся ошибочное слово заново.

Команды

В табл. 6-1 мы приведем сокращенный список команд навигации, которые можно произносить голосом в командном режиме. Более полную информацию по этому вопросу Вы найдете на сайте Microsoft Office XP по адресу http://www.office.microsoft.com.

Таблица 6-1. Команды навигации

Голосовая команда	Эквивалентная команда, выданная при помощи мыши или клавиатуры
End	Клавиша End
Return	Клавиша Return
Enter	Клавиша Enter
Backspace	Клавиша Backspace
Delete	Клавиша Delete
Back one word	Перемещение курсора назад на одно слово
Last word	Перемещение курсора к последнему слову
Space	Клавиша пробела
Space Bar	Клавиша пробела
Escape	Клавиша Escape
Cancel	Щелчок кнопки Cancel
Right-click	Щелчок правой клавиши мыши
Context menu	Выбор контекстного меню
Right-click menu	Щелчок правой клавишей мыши в меню
Right-click a menu	Щелчок правой клавишей мыши в меню
Tab	Клавиша табуляции
Shift Tab	Комбинация клавишb Shift и клавиши табуляции
End	Клавиша End
Go End	Клавиша End
Home	Клавиша Home
Go Home	Клавиша Home
Up	Клавиша перемещения курсора вверх
Go Up	Клавиша перемещения курсора вверх
Down	Клавиша перемещения курсора вниз
Go Down	Клавиша перемещения курсора вниз
Left	Клавиша перемещения курсора влево
Go Left	Клавиша перемещения курсора влево
Right	Клавиша перемещения курсора вправо
Go Right	Клавиша перемещения курсора вправо
Previous Page	Переход к предыдущей странице
Next Page	Переход к следующей странице
Page Down	Пролистывание одной страницы вниз
Page Up	Пролистывание одной страницы вверх

Ввод чисел

Почти в любом тексте встречаются числа. Вы можете произносить их как обычно, и распознанные числа появятся в тексте в виде слов или набора цифр (если число больше 20). С помощью команды force num можно включить режим, при котором все распознанные числа будут записаны в тексте в виде цифр.

Чтобы ввести дробь, такую как ½, скажите one half. Цифры телефонных и аналогичных номеров произносите по отдельности.

Ввод символов

В любом текстовом документе помимо слов и числе присутствуют символы пунктуации. В этом разделе мы приведем краткий список голосовых команд системы распознавания речи, встроенной в пакет Microsoft Office XP и предназначенных для ввода различных символов.

Символы пунктуации

В табл. 6-2 мы привели голосовые эквиваленты символов пунктуации, которые нужно вводить в режиме диктовки текста (а не в командном режиме).

Таблица 6-2. Ввод символов пунктуации

Голосовая команда	Символ пунктуации
Period	. (точка)
Dot	. (точка)
Comma	, (запятая)
Colon	: (двоеточие)
Semi-colon	; (точка с запятой)
Question mark	? (вопросительный знак)
Exclamation point	! (восклицательный знак)

Специальные символы

Помимо знаков пунктуации, в тексте могут встречаться и другие специальные знаки и символы. В табл. 6-3 мы привели набор голосовых команд, предназначенных для ввода этих символов в режиме диктовки текста.

Таблица 6-3. Ввод специальных символов

Голосовая команда	Символ
Ampersand	&
Asterisk	*
At sign	@
At	@
Backslash	\
Slash	/
Vertical bar	\|
Hyphen	Перенос на другую строку
Dash	-
Double dash	--
Equals	=
Plus	+
Plus sign	+
Pound sign	#
Percent	%
Percent sign	%
Dollar sign	$
Underscore	_
Tilde	~
Ellipsis	...
Greater than	>
Less than	<
Caret	^
New line	Разрыв строки
New paragraph	Новый параграф
Quote	" (двойная кавычка)
Open quote	« (открывающая двойная кавычка)
Close quote	» (закрывающая двойная кавычка)
Single quote	' (одинарная кавычка)
Open single quote	‘(открывающая одинарная кавычка)
Close single quote	’ (закрывающая одинарная кавычка)

Скобки

В тексте могут встречаться скобки трех типов — круглые, квадратные и фигурные. Скобки также могут быть открывающимися и закрывающимися.

Для того чтобы открыть круглые скобки (), надо в режиме диктовки текста произнести команду Open parenthesis или Left paren. Круглые скобки закрываются при помощи команд Close parenthesis или Right paren.

Квадратные скобки [] открываются командами Bracket, Left bracket или Open bracket, а закрываются — командами End bracket, Right bracket или Close bracket.

И, наконец, фигурные скобки {} открываются командами Open brace, Curly brace, Left brace, а закрываются — командами Close brace, End curly brace, Right brace.

Итоги главы

В этой главе Вы познакомились с компьютерными программами и системами, в которых реализованы технологии распознавания речи и другие речевые технологии.

Мы выделили несколько категорий таких программ. Это системы голосового управления, голосового разграничения доступа, системы документирования устных выступлений, а также программы, предназначенные для диктовки текста.

Системы голосового управления, такие как VoiceNavigator и Truffaldino, распознают команды с применением предварительно подготовленных голосовых шаблонов. В силу этого они способны работать с любым языком — эти программы не выделяют из речи лексические элементы, такие как фонемы и аллофоны.

Мы отметили, что голосовые системы управления упрощают работу с компьютером для людей с ограниченными возможностями. Мы также рассказали о комплексе DiVo, предназначенным для речевого управления мобильным телефоном во время вождения автомобиля. Такой комплекс позволяет водителю меньше отвлекаться от дороги во время разговора по телефону.

В этой главе мы упомянули систему голосового разграничения доступа, разработанную компанией «Центр речевых технологий». На наш взгляд, хотя эта система и не дает сама по себе надежной защиты от несанкционированного доступа, может с успехом использоваться как дополнение к существующей системы защиты.

Мы рассказали о системах документирования устных выступлений. Это компьютерный транскрайбер, а также системы Нестор и Аллегро. Применение современных речевых технологий позволило упростить работу стенографистов при документировании устных выступлений на совещаниях и симпозиумах. И хотя эти технологии не позволяют переводить устную речь в текстовые документы без участия стенографистов, они значительно упрощают работу над документами, особенно если нужно быстро подготовить и надежно сохранить результаты многочисленных устных выступлений на крупных мероприятиях.

В качестве систем, способных переводить речь в текст в режиме диктовки текста, мы рассмотрели программы DragonDictate, Dragon NaturallySpeaking, а также систему распознавания речи, поставляющуюся в составе пакета офисных программ Microsoft Office XP. Эти системы удобны в эксплуатации и обладают большими возможностями, но, к сожалению, пока не умеют работать с русским языком.

Вы узнали, что эти программы могут работать в командном режиме и в режиме диктовки текста. Командный режим позволяет запускать приложения, работать с меню, диалоговыми окнами, инструментальными панелями и другими элементами пользовательского интерфейса, а также форматировать текст, введенный в режиме диктовки. Мы также привели краткий список команд, с помощью которого пользователь пакета Microsoft Office XP может вводить знаки пунктуации, специальные символы и числа, а также управлять выделением фрагментов текста и его форматированием.