Синтез и распознавание речи. Современные решения

К сожалению, несмотря на потрясающее развитие компьютерных технологий, на сегодня проблема оснащения компьютера полноценным, естественным для человека голосовым интерфейсом еще далека от своего завершения. И хотя наличие определенных успехов, особенно в области синтеза речи, несомненно, полное решение проблемы найдут, по-видимому, только наши дети или внуки.

Почему же, несмотря на все современные достижения и многолетнюю историю развития компьютерной техники, люди так и не научили компьютеры более или менее сносно общаться с человеком с помощью речи? Почему успехи в области распознавания образов все еще оставляют желать лучшего?

В самом деле, всего за 10-20 лет объем оперативной памяти компьютера, и тактовая частота процессора возросли в тысячи раз. Сегодняшние студенты работают дома с такими компьютерами, о которых не так давно сотрудники научно-исследовательских лабораторий могли разве лишь мечтать.

И при этом мощностью компьютеров продолжает расти прямо у нас на глазах — раз в квартал появляются все новые и новые модели процессоров, поражая наше воображение все более высокой тактовой частотой и различными архитектурными новациями.

Программное обеспечение также получило революционное развитие. В то время как первые программы составлялись в машинных кодах или на простых алгоритмических языках программирования, занимая в памяти считанные килобайты, сегодняшние программные комплексы занимают сотни мегабайт, и создаются с помощью сложнейших автоматизированных инструментальных средств.

Однако проблема не только в том, что современные компьютеры не обладают мощностью, достаточной для создания речевого и визуального пользовательского интерфейса. Проблема в том, что все попытки практической реализации такого интерфейса неизбежно упираются в необходимость создания искусственного интеллекта.

Одно дело — научить компьютер распознавать отдельные фонемы и слова, и совсем другое — научить компьютер понимать смысл сказанного. Без понимания контекста произносимых слов их правильная интерпретация не всегда возможна. Не зря переводчиков с иностранного языка учат переводить не слова, а смысл текста. И если переводчик не разбирается в тексте, над которым он работает, едва ли результаты перевода будут удовлетворительны.

При попытке научить компьютер понимать смысл «услышанных» им слов, сразу возникает ряд научных проблем. И, на наш взгляд, основная из них — необходимость реализации искусственного интеллекта. В то же время до сих пор отсутствует точное понимание, что же представляет собой «обыкновенный» естественный интеллект, которым наделен каждый человек, а возможно, и большинство животных.

Каждый день человек с легкостью решает множество задач, труднодоступных или вовсе недоступных компьютеру. Взять, например, задачу распознавания образов. Вы без труда опознаете нужного человека в толпе по фигуре, походке, одежде и многим другим признакам. Для Вас не составит особого труда отличить собаку от кошки или клен от березы. Вы разбираете слова, сказанные по телефону, даже при наличии сильных помех. Однако попытайтесь формализовать способы решения всех этих задач, и Вы убедитесь, что это совсем не просто.

Но может, обычные компьютеры как-то не так устроены? Может быть, архитектура и принцип действия обычных компьютеров не подходит для решения задач искусственного интеллекта?

В самом деле, с момента появления и по настоящее время обычные компьютеры имеют архитектуру Фон-Неймана. Но помимо обычных компьютеров, активно развивались и продолжают развиваться другие компьютерные системы.

Возможно, наиболее перспективное направление их развития с точки зрения создания систем искусственного интеллекта — так называемые нейронные сети. Человек «подсмотрел» архитектуру этих сетей у самой природы.

Как Вы узнаете из нашей книги, строение нейронных сетей напоминает строение клеточных систем головного мозга. И хотя тут трудно говорить о точном соответствии, нейронные сети намного ближе по своей архитектуре к «архитектуре» человеческого мозга, чем обыкновенный компьютер.

Для наиболее эффективной работы нейронной сети нужно создавать специальные аппаратные решения. Заметим, однако, что нейронные сети можно моделировать и на обычном современном компьютере с достаточно мощным процессором. В частности, все программы, описанные в нашей книге и обладающие (в той или иной степени) искусственным интеллектом на базе нейронных сетей, рассчитаны на использование обычных персональных компьютеров.

Надо сказать, что, несмотря на все вышесказанное, уже существует множество практических систем, способных общаться с человеком при помощи речи, а также способные узнавать человеческие лица. В нашей книге мы расскажем о назначении и возможностях систем с речевым интерфейсом.