Оценка точности и устойчивости извлечения формант

Точность и устойчивость формант была оценена в экспериментах на собранной голосовой базе ГБ4, состоящей из 12 дикторов, каждый из которых произносил 50 раз гласный звук «а». Для извлечения формант был использован модифицированный метод на основе линейного предсказания из раздела 3.2. Для вычисления 3 формант был выбран порядок предсказания р = 12, для 5 формант — р = 14.

В табл. 2.2 приведены значения частот первых 3 формант для первого диктора, которые согласуются со значениями формантных частот гласного звука «а» из статьи [67]. В табл. 2.3 приведены значения частот первых 5 формант для первого диктора.

Таблица 2.2

Значения частот первых 3 формант (Гц)

F1

F2

F3

832.6

1287.9

2481.9

Таблица 2.3

Значения частот первых 5 формант (Гц)

F1

F2

F3

F4

F5

752.8

1223.7

2299.9

2816.1

3664.8

В табл. 2.4 приведены относительные ошибки вычисленных значений частот 3 формант для 12 дикторов. Относительная ошибка определялась по формуле -100 %, где /г — оценка математического ожидания значений формант, а — оценка среднеквадратичного отклонения значений формант.

Таблица 2.4

Относительные ошибки частот 3 формант для 12 дикторов

(%)

Диктор

1

2

3

4

5

6

7

8

9

10

11

12

F1

3.48

4.64

1.64

3.63

4.34

3.24

2.80

5.13

3.92

2.78

2.35

1.41

F2

2.89

4.10

2.73

3.94

3.02

2.65

1.73

4.25

2.39

2.38

2.06

1.78

F3

3.67

2.49

3.37

1.68

1.36

2.80

2.59

4.11

5.02

2.42

4.52

3.23

В табл. 2.5 приведены относительные ошибки вычисленных значений амплитут 3 формант для 12 дикторов. Из данной таблицы видно, что относительная ошибка может достигать 36 %. Поэтому можно сделать вывод, что амплитуда форманты неустойчива, значения зависят от типа микрофона, уровня громкости, расстояния до микрофона и других факторов. В дальнейшем исследуется только устойчивость частот формант. В табл. 2.6 приведены относительные ошибки вычисленных значений частот 5 формант для 12 дикторов.

Относительные ошибки амплитуд 3 формант для 12 дикторов (%)

Таблица 2.5

Диктор

1

2

3

4

5

6

7

8

9

10

11

12

F1

18.0

25.1

7.5

17.8

13.3

13.9

14.3

21.5

9.7

15.3

12.6

13.8

F2

20.1

21.5

16.3

21.1

17.1

23.9

10.9

25.5

17.2

12.0

14.1

15.5

F3

24.4

22.7

29.6

21.3

12.3

28.1

31.6

29.1

28.2

33.3

36.3

34.0

(%)

Таблица 2.6

Относительные ошибки частот 5 формант для 12 дикторов

Диктор

1

2

3

4

5

6

7

8

9

10

11

12

F1

3.19

1.90

1.42

3.77

3.81

3.52

2.45

4.34

2.51

2.59

2.26

1.34

F2

2.68

2.15

4.28

2.27

2.36

2.65

1.87

4.23

1.81

2.88

2.72

1.98

F3

2.74

2.06

8.25

1.90

2.57

6.58

3.53

5.81

3.31

5.40

6.28

6.81

F4

4.86

2.01

1.42

4.86

1.42

7.46

2.82

2.95

3.80

2.16

1.10

5.42

F5

5.40

5.17

3.28

2.81

2.60

6.31

5.98

5.40

8.65

2.65

2.10

4.00

Проводились также эксперименты по оценке устойчивости значений частоты формант к шумам. На речевые сигналы накладывался аддитивный белый гауссовский шум при отношении сигнала к шуму (SNR), равном 20 дБ, и затем оценивалась относительная ошибка значений частот формант. Эксперимент проводился 100 раз, значения относительных ошибок усреднялись. В табл. 2.7 приведены результаты экспериментов для 3 формант. В табл. 2.8 — результаты экспериментов для 5 формант.

Таблица 2.7

Относительные ошибки частот 3 формант для 12 дикторов с SNR 20 дБ (%)

Диктор

1

2

3

4

5

6

7

8

9

10

11

12

F1

4.6

9.6

2.3

7.7

11.3

7.6

5.1

12.5

4.4

3.7

3.5

2.9

F2

3.9

9.9

5.2

7.4

9.1

11.8

6.1

10.8

2.7

5.8

5.8

4.1

F3

11.1

6.4

12.1

7.3

5.4

13.3

5.6

13.9

9.3

7.6

6.5

9.1

Таблица 2.8

Относительные ошибки частот 5 формант для 12 дикторов с SNR 20 дБ (%)

Диктор

1

2

3

4

5

6

7

8

9

10

11

12

F1

4.9

7.0

3.8

6.7

8.0

10.4

4.4

11.3

3.5

5.6

5.5

2.4

F2

5.8

3.7

7.6

4.0

3.5

9.8

2.9

13.4

3.4

7.5

7.5

3.5

F3

8.9

10.5

9.7

12.4

9.9

11.9

10.2

15.5

6.1

8.7

15.6

7.7

F4

9.5

7.7

9.6

9.0

4.5

10.8

4.6

12.3

8.0

9.6

8.1

6.9

F5

10.4

10.7

6.7

10.3

7.3

10.3

8.9

10.6

9.5

11.4

11.1

5.3

Кроме того, проводились эксперименты по оценке устойчивости значений частоты формант к шумам, где на речевые сигналы накладывался аддитивный белый гауссовский шум с SNR 15 дБ, и затем оценивалась относительная ошибка значений частот формант. Эксперимент проводился 100 раз, значения относительных ошибок усреднялись. В табл. 2.9 приведены результаты экспериментов для 3 формант. В табл. 2.10 — результаты экспериментов для 5 формант.

Таблица 2.9

Относительные ошибки частот 3 формант для 12 дикторов с SNR 15 дБ (%)

Диктор

1

2

3

4

5

6

7

8

9

10

11

12

F1

10.8

16.6

4.4

15.9

18.9

20.5

8.8

23.6

8.6

13.3

9.4

4.9

F2

13.2

18.4

7.2

19.7

19.0

24.3

11.2

20.8

8.0

17.6

12.6

6.4

F3

12.2

10.8

17.7

11.0

10.1

13.9

10.7

13.5

12.8

11.5

11.3

16.0

Таблицы 2.4-2.10 подтверждают установленное другими исследователями свойство неустойчивости к высоким шумам оценок частот формант модифицированным методом на основе линейного предсказания. Кроме того, оценка для 5 формант менее устойчива, чем оценка для 3 формант. Однако выбор числа формант должен быть решен относительно задачи распознавания диктора, то есть относительно ошибок распознавания.

Таблица 2.10

Относительные ошибки частот 5 формант для 12 дикторов с SNR 15 дБ (%)

Диктор

1

2

3

4

5

6

7

8

9

10

11

12

F1

15.1

16.7

11.0

15.2

14.3

23.7

8.7

22.8

9.0

22.9

19.4

3.9

F2

12.6

11.8

11.2

11.3

7.8

14.8

6.0

16.8

12.7

14.0

14.8

5.0

F3

25.3

20.3

18.0

21.2

17.6

24.6

13.3

23.5

25.6

25.9

24.1

12.6

F4

11.6

11.2

11.2

10.7

8.1

11.1

6.5

11.3

10.7

11.9

11.3

7.1

F5

10.6

11.2

9.1

10.1

9.0

10.0

8.2

10.1

10.0

11.2

11.4

7.3

Контрольные вопросы и задания
  • 1. Каковы достоинства и недостатки современных теорий речеобразован ия?
  • 2. Назовите основные критерии выбора индивидуальных характеристик речи.
  • 3. Какие проблемы и задачи существуют при выборе индивидуальных характеристик речи?
  • 4. Какие индивидуальные характеристики речи используются в современных системах распознавания диктора?
  • 5. Сравните основные индивидуальные характеристики речи: кеп- стральные коэффициенты, мел-спектральные коэффициенты, форманты.
  • 6. Перечислите дополнительные индивидуальные характеристики речи, которые можно использовать в системах распознавания диктора.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >