Синтез и распознавание речи. Современные решения
Электронная библиотека книг Александра Фролова и Григория Фролова.
Shop2You.ru Создайте свой интернет-магазин
Библиотека
Братьев
Фроловых
[Назад] [Содержание] [Дальше]

Синтез и распознавание речи. Современные решения

© А.В. Фролов, Г.В. Фролов, 2003



Иерархия лингвистических уровней

Все лингвистические понятия, рассмотренные далее в этой главе, специалисты в области языкознания относят к нескольким уровням. Иерархическая структура этих уровней показана на рис. 1-5.

Рис. 1-5. Иерархия лингвистических уровней

Рассмотрим эти уровни по отдельности.

Фонетический уровень

На фонетическом уровне определяются такие понятия, как фонемы и аллофоны. Это кирпичики, из которых строятся все лингвистические элементы более высокого уровня.

Фонемы

С точки зрения человека, наименьшей смысловой единицей является слово. Слово делится на слоги, но об этом мы задумывались только в младших классах школы. Что же касается науки, имеющей дело с распознаванием и синтезом речи, то здесь вводится другое понятие единицы звукового строя — фонемы.

Фонемы не отождествляются напрямую со словами или слогами. Они играют роль неделимых частиц, атомов языка и представляют собой последовательности звуков. Из фонем составляются все другие конструкции языка, такие как слоги и слова.

Фонемы обладают многочисленными признаками, которые можно использовать для их классификации и распознавания. В [2] в качестве примера приводятся следующие признаки:

·         звонкость и глухость;

·         твердость и мягкость;

·         взрывность и фрикативность;

·         отсутствие или присутствие назальности;

·         переднеязычность и заднеязычности.

Такой признак, как звонкость, проявляется в звуке д, когда он входит в состав слова дом. В противовес этому, звук т в слове том проявляет глухость. Аналогично, наблюдается твердость звука д в слове дома и мягкость того же самого звука д в слове Дёма. Признак взрывности имеет звук д в слове дал, а признак фрикативности — звук з в слове зал. В слове дам наблюдается отсутствие назальности д, на в слове нам присутствует назальность звука н. В слове дам звук д является переднеязычным, а в слове гам звук г — заднеязычным.

Те признаки, изменение которых приводит к изменению фонемы, называются фонологически существенными признаками фонем.

Аллофоны

Ситуация с многообразием признаков фонем усложняется еще одним обстоятельством — одни и те же фонемы могут изменяться.

Например, гласная буква о произносится по-разному в словах вода и водяной. Вместе с тем, эти гласные являются представителями одной и той же фонемы о, так как они занимают одно и то же положение в звуковой структуре корневой морфемы вод и чередуются друг с другом в силу действующих в современном русском языке фонетических закономерностей.

Такие различные реализации фонем называются вариантами фонемы или аллофонами. При этом один из аллофонов, в котором свойства фонемы проявляются в наибольшей степени, играет роль главного варианта фонемы. Всего в русском языке насчитывается 43 фонемы (37 согласных и 6 гласных) [2]. К этому добавляются многочисленные аллофоны.

Фонологический уровень

На фонологическом уровне определяются комбинации фонем и аллофонов, реально встречающихся в человеческой речи. При этом учитывается, что различные комбинации фонем и аллофонов могут встречаться в речи с различной вероятностью.

Все звуки русского языка принято делить на гласные и согласные.

Гласных звуков и, соответственно, гласных фонем всего пять. Это а, и, о, у, э.

Что же касается согласных фонем, то автор статьи [6] насчитывает их 39: п, п’, б, б’, ф, ф’, в, в’, м, м’; т, т’, д, д’, ц, с, с’, з, з’, н, н’, л, л’; ш, щ, ж, ж’, ч, р, р’; j; к, к’, г, (г’), х, (х’), (g) (g’).

Здесь апостроф используется для различения звонких и глухих согласных. В круглых скобках находятся так называемые факультативные фонемы. Факультативная фонема g выделяется автором [6] в словах с Богом, Богу и Бога. Она считается факультативной (необязательной) так как может быть заменена фонемой г.

Заметим, что разные исследователи выделяют в русском языке разное количество фонем и аллофонов.

Морфологический уровень

На морфологическом уровне накладываются ограничения на структуру таких лингвистических элементов, как слоги и морфемы.

Мы знаем, что эти элементы состоят из фонем и аллофонов, причем при формировании речи добавляются различные фонетические процессы, о которых мы расскажем ниже в этой главе.

Однако сами по себе фонемы не несут никакой смысловой нагрузки. Это просто отдельные звуки речи, и ничего больше. Поэтому если система распознавания выделила из речи отдельные фонемы, она должна еще суметь составить из нее слова и предложения. А это непросто, особенно в случае слитной речи, наиболее удобной для человека.

Теперь мы расскажем о более крупных лингвистических единицах, из которых, в конечном счете, составляются осмысленные слова. Это слоги и морфемы.

Слоги

Слог — это минимальная фонетическая единица речевого потока, включающая в свой состав, как правило, один гласный звук с примыкающими к нему согласными звуками.

Слоги бывают открытыми, закрытыми, условно закрытыми, прикрытыми и неприкрытыми.

Открытые слоги заканчиваются на гласный звук, а закрытые — на согласный. При этом закрытые слоги нельзя открыть, например, рубль, морс. Условно-закрытые слоги можно открыть, изменяя слово, например, кот-коты, клоп-клопы. Прикрытые слоги начинаются с согласного звука, например, до-ма, мо-ло-ко. Неприкрытые слоги начинаются с гласного звука: о-ло-во, а-ре-на.

Сами по себе слоги могут нести, а могут и не нести смысловую нагрузку. Например, такой закрытый слов как рубль, несет вполне определенную смысловую нагрузку. Что же касается прикрытых слогов мо, ло и ко, то сами по себе они никакой смысловой нагрузки не несут.

Из этого следует, что системе распознавания недостаточно выделить из речи отдельные слоги. Само по себе это не дает системе возможности понять, о чем, собственно, идет распознаваемая речь…

Морфемы

Определение морфемы мы учили еще в школе. Согласно школьному определению, морфемой называется наименьшая значимая часть слова. Например, в слове кусочный можно выделить морфему кусоч.

В русском языке морфемы могут совпадать со слогами, а может быть и так, что морфема состоит из нескольких слогов (как, например, в морфеме ку-соч, состоящей из двух слогов). Однако есть языки, в которых слоги всегда совпадают с морфемами.

Сами по себе морфемы не могут образовывать предложения, но с их помощью создаются более крупные лингвистические единицы — лексемы.

Лексический уровень

Лексемой называется множество словоформ с общим лексическим значением. Лексема способна выступать членом предложения и образовывать предложения. Она может быть простой и составной. В первом случае лексема состоит из одного слова, а во втором — из нескольких, например, железная дорога, дом отдыха.

На лексическом уровне определяются слова и словоформы, которые возможны для данного языка. Действительно, комбинируя между собой морфемы и слоги, можно образовать бесконечное количество словоподобных конструкций, но в каждом конкретном языке далеко не все они будут наполнены каким либо значением.

Слова могут играть роль лексем, но не все слова являются лексемами. Служебные слова, такие, например, как из и бы не являются лексемами [2].

Системы распознавания речи могут пользоваться словарями лексем. С помощью этих словарей можно сделать процесс распознавания лексем надежнее, исключая заведомо ложные комбинации, не несущие смысловой нагрузки и появившиеся в результате ошибки механизма распознавания.

Семантический уровень

Высшим уровнем языка является семантика. Именно на этом уровне человеческий мозг отображает речевые конструкции на понятия и образы, устанавливая отношения между объектами и обозначающими их словами.

Наличие стройной системы семантических связей необходимо для создания систем распознавания речи. Только с ее помощью можно получить на выходе этой системы не простой набор слов, извлеченных из потока речи, а осмысленный набор понятий и отношений между ними, встречающихся в реальной жизни.

Предложения

На семантическом уровне определяется такое понятие, как предложение. Согласно определению, предложение — это грамматически оформленная по законам данного языка целостная единица речи, являющаяся главным средством формирования, выражения и сообщения мысли.

Но предложение — это не просто осмысленный набор слов и лексем. Предложение может передавать отношение говорящего человека к озвучиваемой мысли. Предложение может иметь особую интонацию, а также заключать в себе предикативность, то есть отношение сообщения к действительности, независимо от того, имеется в этом сообщении глагол или нет [2].

Только такие системы распознавания, которые способны выделять из речи предложения, можно считать достаточно совершенными. Ибо главным образом, именно в виде предложений человек формулирует свои мысли.

Эмоции

На наш взгляд, к семантическому уровню можно отнести не только словесное представление речи, но и эмоции, выражаемые человеком во время ее произнесения при помощи различных звуков и жестов.

Жесты, сопровождающие речь, могут дополнять и менять смысл произнесенных слов, а также придавать им совершенно другой смысл. Поэтому даже если компьютер будет идеально распознавать слова и составлять из них предложения, в некоторых случаях этого окажется недостаточно для полного понимания сказанного.

Возможно, когда-нибудь компьютеры смогут распознавать (или чувствовать?) человеческие эмоции при помощи видеокамеры или каким-либо другим способом, однако пока они с трудом справляются с задачей выделения из речи отдельных слов и предложений.

[Назад] [Содержание] [Дальше]