Синтез и распознавание речи. Современные решения © А.В. Фролов, Г.В. Фролов, 2003 Иерархия лингвистических уровней Все лингвистические понятия, рассмотренные далее в этой главе, специалисты в области языкознания относят к нескольким уровням. Иерархическая структура этих уровней показана на рис. 1-5. Рис. 1-5. Иерархия лингвистических уровней Рассмотрим эти уровни по отдельности. На фонетическом уровне определяются такие понятия, как фонемы и аллофоны. Это кирпичики, из которых строятся все лингвистические элементы более высокого уровня. С точки зрения человека, наименьшей смысловой единицей является слово. Слово делится на слоги, но об этом мы задумывались только в младших классах школы. Что же касается науки, имеющей дело с распознаванием и синтезом речи, то здесь вводится другое понятие единицы звукового строя — фонемы. Фонемы не отождествляются напрямую со словами или слогами. Они играют роль неделимых частиц, атомов языка и представляют собой последовательности звуков. Из фонем составляются все другие конструкции языка, такие как слоги и слова. Фонемы обладают многочисленными признаками, которые можно использовать для их классификации и распознавания. В [2] в качестве примера приводятся следующие признаки: · звонкость и глухость; · твердость и мягкость; · взрывность и фрикативность; · отсутствие или присутствие назальности; · переднеязычность и заднеязычности. Такой признак, как звонкость, проявляется в звуке д, когда он входит в состав слова дом. В противовес этому, звук т в слове том проявляет глухость. Аналогично, наблюдается твердость звука д в слове дома и мягкость того же самого звука д в слове Дёма. Признак взрывности имеет звук д в слове дал, а признак фрикативности — звук з в слове зал. В слове дам наблюдается отсутствие назальности д, на в слове нам присутствует назальность звука н. В слове дам звук д является переднеязычным, а в слове гам звук г — заднеязычным. Те признаки, изменение которых приводит к изменению фонемы, называются фонологически существенными признаками фонем. Ситуация с многообразием признаков фонем усложняется еще одним обстоятельством — одни и те же фонемы могут изменяться. Например, гласная буква о произносится по-разному в словах вода и водяной. Вместе с тем, эти гласные являются представителями одной и той же фонемы о, так как они занимают одно и то же положение в звуковой структуре корневой морфемы вод и чередуются друг с другом в силу действующих в современном русском языке фонетических закономерностей. Такие различные реализации фонем называются вариантами фонемы или аллофонами. При этом один из аллофонов, в котором свойства фонемы проявляются в наибольшей степени, играет роль главного варианта фонемы. Всего в русском языке насчитывается 43 фонемы (37 согласных и 6 гласных) [2]. К этому добавляются многочисленные аллофоны. На фонологическом уровне определяются комбинации фонем и аллофонов, реально встречающихся в человеческой речи. При этом учитывается, что различные комбинации фонем и аллофонов могут встречаться в речи с различной вероятностью. Все звуки русского языка принято делить на гласные и согласные. Гласных звуков и, соответственно, гласных фонем всего пять. Это а, и, о, у, э. Что же касается согласных фонем, то автор статьи [6] насчитывает их 39: п, п’, б, б’, ф, ф’, в, в’, м, м’; т, т’, д, д’, ц, с, с’, з, з’, н, н’, л, л’; ш, щ, ж, ж’, ч, р, р’; j; к, к’, г, (г’), х, (х’), (g) (g’). Здесь апостроф используется для различения звонких и глухих согласных. В круглых скобках находятся так называемые факультативные фонемы. Факультативная фонема g выделяется автором [6] в словах с Богом, Богу и Бога. Она считается факультативной (необязательной) так как может быть заменена фонемой г. Заметим, что разные исследователи выделяют в русском языке разное количество фонем и аллофонов. На морфологическом уровне накладываются ограничения на структуру таких лингвистических элементов, как слоги и морфемы. Мы знаем, что эти элементы состоят из фонем и аллофонов, причем при формировании речи добавляются различные фонетические процессы, о которых мы расскажем ниже в этой главе. Однако сами по себе фонемы не несут никакой смысловой нагрузки. Это просто отдельные звуки речи, и ничего больше. Поэтому если система распознавания выделила из речи отдельные фонемы, она должна еще суметь составить из нее слова и предложения. А это непросто, особенно в случае слитной речи, наиболее удобной для человека. Теперь мы расскажем о более крупных лингвистических единицах, из которых, в конечном счете, составляются осмысленные слова. Это слоги и морфемы. Слог — это минимальная фонетическая единица речевого потока, включающая в свой состав, как правило, один гласный звук с примыкающими к нему согласными звуками. Слоги бывают открытыми, закрытыми, условно закрытыми, прикрытыми и неприкрытыми. Открытые слоги заканчиваются на гласный звук, а закрытые — на согласный. При этом закрытые слоги нельзя открыть, например, рубль, морс. Условно-закрытые слоги можно открыть, изменяя слово, например, кот-коты, клоп-клопы. Прикрытые слоги начинаются с согласного звука, например, до-ма, мо-ло-ко. Неприкрытые слоги начинаются с гласного звука: о-ло-во, а-ре-на. Сами по себе слоги могут нести, а могут и не нести смысловую нагрузку. Например, такой закрытый слов как рубль, несет вполне определенную смысловую нагрузку. Что же касается прикрытых слогов мо, ло и ко, то сами по себе они никакой смысловой нагрузки не несут. Из этого следует, что системе распознавания недостаточно выделить из речи отдельные слоги. Само по себе это не дает системе возможности понять, о чем, собственно, идет распознаваемая речь… Определение морфемы мы учили еще в школе. Согласно школьному определению, морфемой называется наименьшая значимая часть слова. Например, в слове кусочный можно выделить морфему кусоч. В русском языке морфемы могут совпадать со слогами, а может быть и так, что морфема состоит из нескольких слогов (как, например, в морфеме ку-соч, состоящей из двух слогов). Однако есть языки, в которых слоги всегда совпадают с морфемами. Сами по себе морфемы не могут образовывать предложения, но с их помощью создаются более крупные лингвистические единицы — лексемы. Лексемой называется множество словоформ с общим лексическим значением. Лексема способна выступать членом предложения и образовывать предложения. Она может быть простой и составной. В первом случае лексема состоит из одного слова, а во втором — из нескольких, например, железная дорога, дом отдыха. На лексическом уровне определяются слова и словоформы, которые возможны для данного языка. Действительно, комбинируя между собой морфемы и слоги, можно образовать бесконечное количество словоподобных конструкций, но в каждом конкретном языке далеко не все они будут наполнены каким либо значением. Слова могут играть роль лексем, но не все слова являются лексемами. Служебные слова, такие, например, как из и бы не являются лексемами [2]. Системы распознавания речи могут пользоваться словарями лексем. С помощью этих словарей можно сделать процесс распознавания лексем надежнее, исключая заведомо ложные комбинации, не несущие смысловой нагрузки и появившиеся в результате ошибки механизма распознавания. Высшим уровнем языка является семантика. Именно на этом уровне человеческий мозг отображает речевые конструкции на понятия и образы, устанавливая отношения между объектами и обозначающими их словами. Наличие стройной системы семантических связей необходимо для создания систем распознавания речи. Только с ее помощью можно получить на выходе этой системы не простой набор слов, извлеченных из потока речи, а осмысленный набор понятий и отношений между ними, встречающихся в реальной жизни. На семантическом уровне определяется такое понятие, как предложение. Согласно определению, предложение — это грамматически оформленная по законам данного языка целостная единица речи, являющаяся главным средством формирования, выражения и сообщения мысли. Но предложение — это не просто осмысленный набор слов и лексем. Предложение может передавать отношение говорящего человека к озвучиваемой мысли. Предложение может иметь особую интонацию, а также заключать в себе предикативность, то есть отношение сообщения к действительности, независимо от того, имеется в этом сообщении глагол или нет [2]. Только такие системы распознавания, которые способны выделять из речи предложения, можно считать достаточно совершенными. Ибо главным образом, именно в виде предложений человек формулирует свои мысли. На наш взгляд, к семантическому уровню можно отнести не только словесное представление речи, но и эмоции, выражаемые человеком во время ее произнесения при помощи различных звуков и жестов. Жесты, сопровождающие речь, могут дополнять и менять смысл произнесенных слов, а также придавать им совершенно другой смысл. Поэтому даже если компьютер будет идеально распознавать слова и составлять из них предложения, в некоторых случаях этого окажется недостаточно для полного понимания сказанного. Возможно, когда-нибудь компьютеры смогут распознавать (или чувствовать?) человеческие эмоции при помощи видеокамеры или каким-либо другим способом, однако пока они с трудом справляются с задачей выделения из речи отдельных слов и предложений. |