Форманты

Исследования формант

На основании данных, полученных с помощью опытов, основные физические проявления индивидуальности следует искать в спектральных

Таблица 2.1

Значения частот диапазонов для барк- и мел-спектральных

шкал

Шкала

Канал

1

2

3

4

5

6

7

8

9

10

Барк

Min

0

100

200

300

395

510

630

465

920

1075

Мах

100

200

300

400

505

630

770

915

1080

1265

Мел

Min

50

150

250

350

450

550

650

750

850

938

Мах

150

250

350

450

550

650

750

850

950

1062

Шкала

Канал

11

12

13

14

15

16

17

18

19

20

Барк

Min

1265

1480

1710

1990

2310

2675

3125

3650

4350

5250

Мах

1475

1720

1990

1310

2690

3125

3675

4350

5250

6350

Мел

Min

1069

1228

1411

1620

1861

2137

2456

2820

3240

3722

Мах

1229

1412

1621

1862

2139

2457

2822

3242

3724

4278

или формантных, а также временных и амплитудных характеристиках речевого сигнала.

Фант наиболее полно и всесторонне изучил формантную структуру звуков речи [26]. Полученные исследования легли в основу акустической теории речеобразования, в которой утверждается, что каждому звуку речи соответствует своя форма акустического речевого тракта с присущей ему структурой формант.

Данные о формантных характеристиках послужили основой для систем, предложенных в целом ряде работ. В исследовании Г. С. Рами- швили [8] был сделан подробный обзор основных исследований формант, приведем только некоторые из них.

В своей работе Г. С. Себестиан [63] использовал мгновенные значения 13 фонетических параметров: четыре форманты, мгновенная интенсивность звука, основная частота, признак звонкости, производные некоторых характеристик и отношение длительностей звонких участков к глухим.

Тюльман осуществил подробный анализ различных характеристик, в том числе формант. Он приходит к заключению, что основная информация об индивидуальном речевом аппарате должна содержаться в следующих признаках: положение треугольников гласных (форматная карта), частоты высших формант, спектральная ширина формант, положение формант при назальных звуках или антиформант при назализованных звуках, относительное содержание энергий формант в звонких звуках, частота колебаний голосовых связок, а также ряд определенных отношений между ними.

В работе Янга и Кемпбелла в качестве наилучших признаков индивидуальности голоса были рекомендованы следующие параметры речевого сигнала: частоты, интенсивности и ширины формант; переходные характеристики между фонемами и, особенно, скорость изменения второй форманты F2, асинхронность начала и окончания первых трех формант, частотные интервалы между формантами; наличие пиков между формантами и спектральные характеристики этих пиков; степень периодичности импульсов основного тона и частота основного тона F0; длительность слова.

Формантные параметры в виде траекторий FI, F2 и F3, а также контуры интенсивности и основного тона F0, послужили основой для осуществления одного из наиболее известных подходов верификации диктора в системе Додингтона.

В работах Сэмбура была подтверждена неэффективность использования таких характеристик, как ширина формантных областей, параметры спектров голосовых импульсов, положение полюсов носовых звуков и фрикативных согласных.

В работах Вольфа, Стивенса и Тоси также было установлено, что формантные частоты являются более важными признаками, чем ширина и полюсы голосового источника.

Последние исследования в области голосовой биометрики были направлены на изучение формантного метода [1; 57]. С. Л. Репалов впервые разработал и исследовал математический аппарат обработки формантных характеристик в задаче текстонезависимого распознавания диктора [57].

В работе А. Н. Киселева [52] были рассмотрены аспекты метода извлечения формант на основе частотно-временного анализа, в частности с помощью непрерывного вейвлет-анализа. Была разработана процедура оценки частоты основного тона и формантного анализа вокализованных фонем, а также оценки параметров невокализованных фонем на основе непрерывного вейвлет-преобразования. Однако предложенный метод дает только приближенную оценку формант.

Интерес вызывает и работа А. Л. Гаврилюка, в которой был предложен и обоснован подход к выделению основного тона на основе вейвлет- преобразования речевого сигнала как функции времени, была показана его адекватность при анализе модельных сигналов, в том числе при наличии аддитивного шума. Данный алгоритм выделения основного тона может быть адаптирован для использования в системах обработки речи, в том числе при распознавании диктора.

Особо стоит отметить работу [67], где выполнен сравнительный анализ точности и устойчивости мгновенных оценок формантных частот в речевом сегменте методом нулей сигнала и различными модификациями метода линейного предсказания. И было установлено, что стабилизация мгновенных оценок формантных частот достигается путем использования информации о характерных акустических характеристиках гласноподобных звуков в конкретном языке.

В статье В. Н. Сорокина и Л. С. Леонова [66] был предложен метод мгновенной оценки резонансных частот речевого тракта на каждом периоде основного тона. Данный метод основан на нахождении интервалов времени между моментами обращения в нуль первой производной сигнала, который подвергнут фильтрации в некоторой частотной полосе, где ожидается присутствие колебаний только одного резонанса тракта. Проведены численные эксперименты, показывающие, что получаемые по этому методу оценки частот достаточно близки к истинным резонансным частотам тракта.

В монографии В. Н. Сорокина [25] показано, что формантные частоты в речевом сигнале наиболее близки к резонансным частотам речевого тракта на интервалах закрытой голосовой щели. На интервале открытой — напротив, они могут отличаться на величину до 20 %, что связано с влиянием подсвязочной области. Это обуславливает необходимость вычисления формант синхронно с импульсами основного тона.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >