Оценка надежности формантного метода текстозависимой верификации диктора

Для того чтобы получить количественную оценку надежности формантного метода текстозависимой верификации диктора, необходимо найти ошибки первого и второго рода [9].

Для экспериментов была использована голосовая база ГБЗ из 100 дикторов, каждый диктор произносил 13 раз некоторое одинаковое для всех слово. Предварительно все 1300 фраз разбивались на кратковременные непересекающиеся вокализованные сегменты так, чтобы каждому сегменту соответствовал гласный звук слова. Для этого применим два метода сегментации сигнала: метод покадровой обработки и новый предложенный метод сегментации сигнала с помощью оценки сингулярности. Для каждого сегмента вычислялись векторы признаков, формантные наборы, то есть для каждой фразы со находим вектор признаков х(оо).

Сравнение фраз дикторов coi и coj осуществляется при помощи модифицированного решающего правила (3.3) при заданном пороговом значении Л

где coi и ujj — объекты распознавания, соответствующие г и j фразе дикторов. Меру близости определим следующим образом

где Xj и Xj — векторы признаков объектов оу и coj (по числу сегментов п). Метрику в пространстве формантных наборов V введем

соотношением

где и — формантные наборы для t координаты векторов признаков Xi, Xj и и = 5. Здесь — метрика в

пространстве формант Н:

с весовыми коэффициентами cw и са, формантами и

в формантных наборах х и Ху Для нормировки выбе- рим cw = 1 и са = 1000 (см. [57]).

Затем составим матрицу Мшохшо по всевозможным фразам дикторов, элементами которой являются 1 и 0, соответствующие результатам решающего правила (3.4).

При успешном распознавании дикторов в идеальном случае матрица М должна содержать единицу только в тех местах, где фразы соответствуют одному и тому же диктору. Поэтому количество единиц для такой матрицы должно быть равно с = 1300 • 13, а нулей должно быть с0 = 1300 • (1300 - 130).

В построенной матрице М в тех местах, где фразы соответствуют одному и тому же диктору, подсчитываем количество нулей d^. А в тех местах, где фразы соответствуют разным дикторам, подсчитываем количество единиц d. Тогда ошибки первого р и второго Р2 рода определим соотношением

Перебирая различные пороговые значения Л в пределах [0,100], вычисляем ошибки первого и второго рода для этих пороговых значений описанным выше способом. На рис. 3.7 приведены графики зависимости ошибок первого и второго рода от порогового значения. Для наглядности некоторые значения этой зависимости содержатся в представленной ниже табл. 3.1.

Графики зависимости ошибок первого и второго рода от порогового значения Л

Рис. 3.7. Графики зависимости ошибок первого и второго рода от порогового значения Л

В качестве значений ошибок первого и второго рода можно выбирать точку пересечения графиков этих ошибок. Однако лучше этот выбор сделать оптимальным относительно более важной ошибки второго рода. Так, для порогового значения 29 (табл. 3.1) ошибка первого рода равна

Таблица 3.1

Вероятности ошибок первого и второго рода для различных пороговых значений

Пороговое значение

19

28

29

30

42

57

71

Ошибка 1 рода

0.677

0.3967

0.377

0.3525

0.1148

0.0393

0.0115

Ошибка 2 рода

0

0.0068

0.0096

0.0147

0.1164

0.3700

0.6331

0.377, а второго рода — 0.01. Приведем на рис. 3.8 график зависимости ошибки первого рода от второго.

График зависимости ошибки первого рода от второго рода

Рис. 3.8. График зависимости ошибки первого рода от второго рода

Для того чтобы сравнить надежность систем распознавания диктора на основе двух методов сегментации речевого сигнала, зафиксируем ошибку второго рода р2(Л) ~ 0.01 и сравним ошибки первого рода при полученном пороге Л. В табл. 3.2 приведены ошибки первого родарДА) и второго рода рДА) ~ 0.01.

Если сравнивать оценки надежности формантного метода текстозависимой верификации диктора на основе метода покадровой обработки и нового предложенного метода сегментации сигнала, то можно сделать

Таблица 3.2

Результаты сравнения двух методов сегментации речевого

сигнала

Метод сегментации

Ошибка 1 рода

Ошибка 2 рода

Покадровая обработка

0.377

0.01

Оценка сингулярности сигнала

0.301

0.01

вывод, что количество ошибок первого рода уменьшилось на 20 % при фиксированном количестве ошибок второго рода.

Полученные количественные характеристики надежности формантного метода текстозависимой верификации диктора дают основание считать возможным успешное распознавание диктора, однако можно предложить ряд способов увеличения надежности. Например, необходимо модифицировать решающее правило (3.3) при заданном пороговом значении Л.

Введем

Положим

где и ujj — объекты распознавания, соответствующие г и j фразе дикторов. Меру близости определим следующим образом:

где Xi и Xj — векторы признаков объектов иу и ujj (по числу сегментов п). Метрику h(x, Xj) в пространстве формантных наборов V введем соотношением

или

где — формантные наборы для t координаты

векторов признаков хXj и и — число формант = 3 или и = 5). Здесь метрика в пространстве формант Н:

с формантами в формантных наборах х и

х^. Мы не учитываем амплитуду формант, так как она не устойчива.

Для экспериментов была использована голосовая база ГБЗ из 100 дикторов, каждый диктор произносил 13 раз некоторое одинаковое для всех слово. Предварительно все 1300 фраз разбивались на кратковременные непересекающиеся вокализованные сегменты так, чтобы каждому сегменту соответствовал гласный звук слова. Для этого применим предложенный метод сегментации сигнала с помощью оценки показателя Гёльдера. Для каждого сегмента вычислялись векторы признаков как формантные наборы.

Тестирование происходило по методу «jack knife»: на каждого диктора по очереди составлялась обучающая выборка из всевозможных комбинаций его 3 фраз, все остальные фразы всех дикторов верифицировались, находились ошибки первого и второго рода в зависимости от единого порогового значения для всех дикторов. Для сравнения использовались такие показатели как ERR, когда ошибка первого и второго рода равны, и ошибка первого рода при фиксированной ошибке второго рода 0.01. В табл. 3.3 представлены результаты экспериментов.

Таблица 3.3

Результаты тестирования для выбора числа формант 3 или 5, метрики 1 или со

Число формант, метрика

3, k

5, h

3, Cq

5, с0

ERR (а = /3)

0.0843

0.0927

0.1259

0.1583

Р

II

О

О

1—1

0.2130

0.2509

0.1404

0.1951

Из табл. 3.1 можно сделать вывод, что достаточно ограничиться 3 формантами и метрикой со, при которых ошибка первого рода а равна

0.1404 с ошибкой второго рода /3 0.01.

Можно увеличить надежность текстозависимой верификации диктора на основе формантного метода, если пороговое значение устанавливать индивидуально для каждого диктора. В этом случае для каждого диктора по очереди строится график зависимости ошибок первого и второго рода, при ошибке второго рода в пределах 0.001-0.01 выбирается пороговое значение. Тестирование повторяется уже для всех дикторов с установленными пороговыми значениями, как описывалось выше. В ходе эксперимента проводилось 1772 теста. При этом оказалось, что усредненная ошибка первого рода а равна 0.1664 при ошибке второго рода /5, равной 0.0015.

Доверительный интервал с надежностью 0.975 для оценки ошибок а, /3 найдем как доверительный интервал для оценки математического ожидания при неизвестной дисперсии нормального распределения [14]

В результате были получены следующие доверительные интервалы для оценки ошибки первого рода a G [0.1664 — 0.0091; 0.1664 Ч- 0.0091], второго - /3 е [0.0015 - 0.00017; 0.0015 + 0.00017].

Кроме того, проводились эксперименты по оценке устойчивости к шумам формантного метода текстозависимой верификации диктора. Для построения решающего правила (3.5) использовались 3 форманты и метрика со. Пороговое значение устанавливалось индивидуально для каждого диктора. В табл. 3.4 представлены результаты экспериментов в зависимости от отношения сигнала к шуму SNR.

Таблица 3.4

Результаты тестирования для голосовой базы ГБЗ при разном отношении SNR (дБ)

SNR

а

Р

50

0.1664

0.0015

40

0.3215

0.0017

30

0.4748

0.00094

Из табл. 3.4 следует, что при малом отношении сигнала к шуму надежность распознавания уменьшается. Отсюда можно сделать вывод, что для успешного распознавания диктора необходимо предварительно осуществить шумоочистку сигнала.

В дальнейшем были проведены эксперименты для голосовой базы ГБ2 из 100 дикторов, каждый диктор произносил 13 раз некоторую одинаковую для всех фразу. Предварительно все 1300 фраз разбивались на кратковременные непересекающиеея вокализованные сегменты, так, чтобы каждому сегменту соответствовал гласный звук слова. Для этого применялся предложенный метод сегментации сигнала с помощью оценки показателя Гельдера. Для каждого сегмента вычислялись формантные наборы.

В результате были получены следующие доверительные интервалы с надежностью 0.975 для оценки ошибки первого рода сх е [0.1106 - 0.0078; 0.1106 + 0.0078], второго /3 6 [0.00098 — 0.00012; 0.00098 4- 0.00012]. Из данного результата можно сделать вывод, что при увеличении длительности фразы надежность распознавания диктора увеличивается.

В российских стандартах серии ГОСТ Р ИСО / МЭК 19795 вводятся необходимые эксплуатационные испытания и протоколы испытаний в биометрии.

Стандарт ГОСТ Р ИСО / МЭК 19795-1-2007:

  • • устанавливает общие требования к проведению эксплуатационных испытаний биометрических систем в отношении определения вероятности появления ошибок и пропускной способности, используемых для прогнозирования и сравнения эксплуатационных характеристик систем, а также для проверки их соответствия установленным эксплуатационным требованиям;
  • • определяет эксплуатационные характеристики биометрических систем;
  • • устанавливает требования к методам испытаний и форме представления протоколов с результатами испытаний;
  • • является основой для разработки и анализа протоколов испытаний для предотвращения систематических ошибок, обусловленных несоответствующими процедурами сбора и анализа данных, а также для более точной оценки результатов эксплуатационных испытаний и уточнения области их применения;
  • • распространяется на эмпирические эксплуатационные испытания биометрических систем и алгоритмов на основании анализа степеней схожести и решений, выдаваемых системой, без детальной информации об алгоритмах системы или о законе распределения биометрических характеристик испытуемой выборки.

Стандарт ГОСТ Р ИСО / МЭК 19795-2-2008 устанавливает требования:

  • • к сбору, анализу данных и протоколирования результатов двух основных видов испытаний — технологического и сценарного;
  • • разработке и полноценному описанию протоколов для технологического и сценарного испытаний;
  • • методам проведения испытаний биометрических систем и протоколированию их результатов, отражающих параметры, присущие определенным видам биометрических испытаний.

Стандарт ГОСТ Р ИСО / МЭК ТО 19795-3-2009 содержит описание методов проведения испытаний, учитывающих разные биометрические характеристики каждой модальности (отпечатки пальцев, лицо, радужная оболочка глаза и др.). В стандарте приведены методы разработки испытаний с целью определения технических эксплуатационных характеристик с учетом особенностей биометрической модальности.

Контрольные вопросы и задания

  • 1. Какие проблемы возникают при выборе пространства наблюдений?
  • 2. Какие проблемы возникают при построении решающего правила?
  • 3. Сравните основные методы построения решающего правила.
  • 4. Какие дополнительные методы можно использовать на этапе обработки сигнала?
  • 5. Расскажите о существующих современных методах сегментации сигнала.
  • 6. Сравните методы и принципы оценки надежности системы распознавания диктора.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >