ИНДИВИДУАЛЬНЫЕ ХАРАКТЕРИСТИКИ РЕЧИ

Теория речеобразования

Акустическое речевое колебание порождается движением органов артикуляционного аппарата. Изучение функционирования артикуляционного аппарата в процессе произнесения звуков речи является предметом глубоких физиологических и акустических исследований, результаты которых представлены в работах многих исследователей [7; 16; 25; 26].

В образовании звуков речи участвуют следующие физиологические органы: рот, нос, язык, нёбная занавеска, глотка, гортань, голосовые связки, трахея, бронхи, легкие и диафрагма. Выталкиваемый из легких воздух проходит через трахею, гортань, полости глотки, рта и носа. Таким образом, речевое колебание представляет собой акустическую волну, распространяющуюся по речеобразующей системе и излучаемую через губы и ноздри [83].

Для описания процесса речеобразования были предложены две модели: линейная [26] и нелинейная [94].

В нелинейной модели речеобразования предполагается, что на самом деле источником звука являются воздушные вихри, возникающие на ложных голосовых складках, вследствие чего процесс речеобразования становится нелинейным [123].

Нелинейная модель оказалась более близкой к процессу речеобразования, однако ее практическое применение было затруднительным, вследствие того, что основой модели является механизм моделирования жидкостных и газовых потоков, основанный на уравнении Навье-Стокса, но его приблизительное решение требует точного знания зависимости геометрии голосового тракта от времени.

Согласно линейной модели речеобразования, разработанной Фантом в рамках акустической теории [7; 25; 26], речевой тракт человека может быть представлен в виде сложной акустической резонирующей системы с медленно меняющимися параметрами (соотношение между входом и выходом системы описывается дифференциальным уравнением). Считается, что на вход такой системы, в случае классификации сегмента речевого сигнала как вокализованного, подается возбуждающий сигнал импульсного характера, в противном случае — шум.

Одну из главных ролей в образовании звуков речи играют голосовые связки, расположенные в гортани. При обычном дыхании голосовые связки разомкнуты, и голосовая щель (проход между связками) широко раскрыта. При произнесении некоторых звуков речи связки находятся в сомкнутом исходном состоянии и размыкаются иод воздействием давления нагнетаемого из легких воздуха, который, прорываясь через голосовую щель, раздвигает связки в поперечном направлении. Под воздействием суживающих щель мышц, а также благодаря упругости и гидродинамическому эффекту Бернулли, связки вновь возвращаются в сомкнутое состояние, далее цикл повторяется. Такие движения голосовых связок характерны для произнесения гласных и звонких согласных звуков. В результате этих колебаний проходящий через голосовую щель поток воздуха приобретает импульсный характер и затем поступает в глотку, ротовую и носовую полости. Гортань и ротовую полость обычно называют голосовым трактом. Конфигурация голосового тракта в процессе произнесения звуков изменяется во времени. Эти изменения накладываются на проходящий через тракт поток воздуха. Для образования носовых звуков к голосовому тракту через нёбную занавеску подключаем носовую полость.

Изменение конфигурации голосового тракта и колебания голосовых связок взаимосвязаны так, что вся речеобразующая система функционирует как единый сложный объект, а не как набор автономно функционирующих органов, определенным образом соединенных друг с другом. Одна группа органов — зубы, твердое нёбо, задняя пенка глотки и носовой полости — участвует в артикуляции пассивно, так как остается неподвижной, в то время как другая группа — нижняя челюсть, губы, язык, мягкое нёбо, нёбная занавеска, голосовые связки — является активной, так как производит при артикуляции вполне упорядоченные движения.

Легкие, бронхи и трахея, расположенные ниже гортани, служат источником энергии для образования речи. Речь представляет собой акустическую волну, которая сначала излучается речеобразующей системой при выталкивании воздуха из легких, а затем преобразуется в голосовом тракте.

Звуки речи могут быть разделены на три четко выраженные группы по типу возбуждения:

  • вокализованные звуки, образуются проталкиванием воздуха через голосовую щель, при этом периодически напрягаются и расслабляются голосовые связки, и возникает квазипериодическая последовательность импульсов потока воздуха, возбуждающая голосовой тракт;
  • фрикативные, или невокализованные, звуки, генерируются при сужении голосового тракта в каком-либо месте (обычно в конце рта) и проталкивании воздуха через суженое место со скоростью достаточно высокой для образования турбулентного воздушного потока; таким образом, формируется источник широкополосного шума, возбуждающего голосовой тракт;
  • взрывные звуки, при их произнесении голосовой тракт полностью закрывается (обычно в начале голосового тракта). За этой смычкой возникает повышенное сжатие воздуха. Затем воздух внезапно высвобождается.

Так как мы интересуемся в первую очередь возбуждением голосового тракта, то необходимо подробнее рассмотреть способы описания возбуждения голосового тракта. Будем считать, что большинство звуков речи можно отнести либо к вокализованным, либо к невокализованным. В первом случае источник возбуждения должен формировать квазипе- риодическую последовательность импульсов, а во втором — случайное шумоподобное колебание.

На рис. 2.1 показана общая дискретная модель речеобразования, которая дает лишь общее представление о речеобразовании. В данном случае переключением источников возбуждения можно изменять характер сигнала возбуждения. В случае анализа речи на основе линейного предсказания модели голосового возбуждения G(z), излучения R(z) и голосового тракта V(z) удобно объединить их вместе, записав общую передаточную функцию в виде

H(z) = G(z)R(z)V(z).

Общая дискретная модель речеобразования

Рис. 2.1. Общая дискретная модель речеобразования

Одним из способов получения сигнала вокализованной речи является следующий: генератор последовательности импульсов формирует единичные импульсы, повторяющиеся через период основного тона. Этот сигнал поступает на линейную систему, импульсная характеристика которой соответствует форме колебания в голосовой щели. Коэффициенты усиления Лу и А^ определяют интенсивность голосового возбуждения и шума соответственно.

Для невокализованных звуков модель возбуждения гораздо проще. Здесь достаточно располагать источником шума и изменять коэффициент усиления для получения требуемой мощности возбуждения. Для моделей в дискретном времени в качестве такого источника может быть использован генератор случайных чисел, формирующих последовательность с равномерным спектром. Функция распределения шумового возбуждения при этом несущественна.

Важным вопросом является выяснение ограничений этой модели. Очевидно, что модель весьма далека от тех дифференциальных уравнений в частных производных, которыми описывается голосовой тракт [7; 26; 27|. Можно выделить несколько ограничений.

Первое состоит в характере изменения параметров. Для протяжных звуков, таких как гласные, параметры изменяются довольно медленно, и в этом случае модель окатывается достаточно точной. При произнесении кратковременных, например взрывных звуков, модель уже не является адекватной. Следует подчеркнуть, что использование понятий «передаточная функция» и «частотная характеристика» предполагает кратковременный анализ сигнала. Таким образом, допускается, что параметры модели постоянны на интервалах 10-20 мс.

Передаточная функция V{z) хорошо отображает структуру звуков. Это ограничение имеет большое значение для носовых звуков и несколько меньшее для фрикативных.

Третье ограничение состоит в упрощенном дихотомическом разделении типов возбуждения: вокализованное и невокализованное. Такое ограничение не соответствует вокализованным фрикативным звукам. Устранить его путем простого сложения сигналов возбуждения двух типов не удается, так как для фрикативных звуков импульсы основного тона коррелированны с шумовым возбуждением.

Наконец, еще одним недостатком модели, изображенным на рис. 2.1, является то, что импульсы голосового возбуждения повторяются с периодом, кратным интервалу дискретизации Т, что, конечно, не соответствует действительности.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >