Выбор индивидуальных характеристик речи

Одним из самых важных этапов при построении автоматических систем распознавания диктора является выбор параметров речевого сигнала. Такие параметры сигнала, называемые признаками речи, должны обладать рядом характеристик 111]:

  • • быть уникальными,
  • • легко измеряемыми и робастными,
  • • характеризоваться стабильностью во времени,
  • • не должны поддаваться имитации.

На основании данных, полученных с помощью опытов, основное проявление индивидуальности речи человека следует искать в двух основных группах признаков. Они связаны с физиологическими (анатомическими) особенностями механизма речеобразования человека и уникальным характером приведения его в действие (артикуляционной деятельностью), обусловленным работой центральной нервной системы.

Речевой сигнал имеет сложную природу, определяемую одновременным наличием многочисленных факторов, сознательно или подсознательно участвующих в процессе речеобразования:

  • • особенности, связанные с анатомией артикуляционного аппарата человека;
  • • конкретные условия возникновения речи, относящиеся к семантической, выразительной и другим функциям речевого действия.

Следует учесть, что основной функцией речевой коммуникации является передача смыслового содержания. Кроме смысловой, в речевом сигнале присутствует информация о громкости, скорости речи, интонации, эмоциональном состоянии и, наконец, о постоянных индивидуальных особенностях диктора.

Весь поток речевой информации можно разделить на четыре основных компонента: смысловое содержание, мелодию речи, индивидуальную окраску и динамику. При этом речь есть весьма изменчивый процесс по всем своим многочисленным параметрам, и вряд ли можно найти такие характеристики речи, которые всецело относились бы к особенностям индивидуального голоса и не участвовали бы в реальном процессе формирования других признаков. Поэтому идеальной следует считать ситуацию, при которой речевой сигнал рассматривается как целый и анализируется как с индивидуальной, так и со смысловой, интонационной и динамической точек зрения.

Из вышесказанного можно сделать вывод о том, что в качестве характерных признаков голоса необходимо рассматривать некоторые интегральные свойства речевого сигнала, то есть свойства, проявляющиеся в виде усредненных значений на отрезке всего анализируемого сигнала.

Индивидуальные черты речи не выделяются в виде отдельных параметров, а существуют во взаимодействии с параметрами, определяющими лингвистическую структуру и смысловое содержание речевого сообщения. Индивидуальные особенности существуют только вследствие значительной помехоустойчивости речевой системы, позволяющей реализовать коммуникативный акт при наличии значительной вариативности одинаковых сообщений (индивидуальной, эмоциональной, ситуационной и др.).

Речь каждого индивидуума обладает только ему присущими отличительными чертами. Это связано с тем, что в речевой системе отсутствует понятие абсолютной нормы, как на сегментном (фонетическом) уровне, так и на уровне просодических характеристик (интонация, ритмика). Индивидуальная форма образуется под влиянием целого ряда факторов в процессе обучения речи:

  • • диалектные особенности произнесения отдельных звуков;
  • • дефекты речи;
  • • социальные варианты произнесения звуков и интонирования.

Исходя из общепринятой акустической модели речеобразования, можно заранее прогнозировать появление индивидуальных особенностей речи. Прежде всего, это характеристики голосового источника и акустического фильтра, то есть артикуляторного тракта. Лингвистическая структура речевых звуков формируется акустическим фильтром. Вследствие этого его характеристические параметры должны в меньшей степени зависеть от индивидуальных особенностей артикуляторного тракта. Такие особенности должны компенсироваться за счет положения активных артикуляторных органов. Функцией же голосового источника считается только возбуждение звука в речеобразующем тракте. Вследствие этого можно ожидать большей вариативности именно в работе голосового источника.

Необходимо указать следующие параметры голосового источника, связанные с индивидуальными особенностями:

  • • средняя частота и дисперсия основного тона,
  • • распределение периодов основного тона,
  • • амплитудная модуляция периодов основного тона,
  • • частотная модуляция периодов основного тона,
  • • соотношение длительностей звонких и шумовых сегментов речевого сообщения,
  • • контур основного тона на фразе,
  • • форма возбуждающей волны голосового источника.

Все перечисленные параметры исследовались в той или иной степени относительно определения индивидуальности говорящего. В лабораторных условиях они показали сравнительно высокую информативность. Однако в реальных системах практического назначения они не нашли своего применения из-за чувствительности к шумам и помехам.

При определении индивидуальных особенностей акустического фильтра возможны два подхода:

  • 1. Определение собственно формы артикуляторного тракта, путем решения обратной задачи. Такой подход обладает двумя очевидными недостатками:
    • • сами методы достаточно громоздки и обладают малой точностью;
    • • не очень ясно, дадут ли получаемые аппроксимации артикуляторного тракта отчетливые индивидуальные различия; возможно, они будут сглажены за счет работы активных артикуляторных органов.
  • 2. Определение тех или иных характеристических параметров, связанных тем или иным способом с акустическим фильтром. Этот подход является основным при построении систем идентификации говорящего. В самом деле, привязка в этом случае к форме артикуляторного тракта весьма условная, так как реально анализируется форма речевой волны как таковая.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >