ТЕКСТОЗАВИСИМАЯ ВЕРИФИКАЦИЯ ДИКТОРА

Общая модель распознавания диктора

Определим центральные понятия классической постановки задачи распознавания диктора [12; 57].

Гипотетическим множеством, О будем называть множество объектов распознавания со 6 Q, где, соответственно, элемент ш 6 Я является речевым фрагментом, принадлежащим диктору.

Индикаторной функцией будем называть функцию у: О —> М, разбивающую множество {2 на т непересекающихся классов Г2х,..., С1т, где разные классы соответствуют различным дикторам, а М — {1,..., т} — множество дикторов. Индикаторная функция строится в процессе обучения диктора.

Пусть х: П —>? X функция, которая ставит в соответствие каждому объекту ы 6 Я его образ х(со) G X, непосредственно воспринимаемый наблюдателем. Тогда множество X будем называть пространством наблюдения.

Решающее правило g: X —> М позволяет наблюдателю распознать класс у(со) объекта со G И, опираясь на его образ х{со) в пространстве наблюдений X.

Качество решающего правила измеряют частотой появления правильных решений. Обычно его оценивают, наделяя множество объектов И некоторой вероятностной мерой, тогда задача распознавания диктора записывается в виде

гшпР{<7(ж(щ)) ф #(и;)}.

Задача идентификации состоит в выделении одного диктора по наблюдаемому голосу из множества известных системе (наблюдателю) дикторов (множество i2) на основе вектора значений признаков, вычисленных по данному речевому сигналу.

Решающее правило для идентификации диктора можно записать

как

В задаче верификации диктор считается известным, и необходимо по предъявленному фрагменту речи сделать заключение о его принадлежности данному диктору. Другими словами, по заранее известному классу i'll и по образу х(со) объекта со (фрагмента речи) решающее правило будет состоять из решений: объект распознавания со принадлежит классу ill, или противное.

Будем рассматривать только текстозависимую верификацию диктора, в которой используется грамматически один и тот же речевой сигнал, поэтому при обучении и при верификации диктор должен произносить одну и ту же фразу.

Элементами пространства наблюдений X являются векторы признаков, вычисленные на основе речевого сигнала. В предлагаемом методе верификации диктора речевой сигнал разбивается на кратковременные непересекающиеся вокализованные сегменты, для которых вычисляются индивидуальные характеристики.

Признаки объектов обозначим через хг ? V при г — 1,... ,п, где п — это число сегментов фразы.

Пусть в результате обучения дикторов все множество объектов распознавания И было разбито на непересекающиеся подмножества И,...Л1т, каждое из которых отвечает соответствующему дикто-

РУ-

Для этого рассмотрим величину S(co,ilq) — меру близости между распознаваемым объектом со и классом ilq, q = 1,2,... ,т.

Переопределим решающее правило д: X х М —> {0,1} для верификации диктора, используя критерий минимизации расстояния в введенной ранее метрике от поступившего на вход вектора признаков наблюдения объекта со до класса ilq верифицируемого диктора

где Л — пороговое значение, которое определяется в зависимости от требуемых ошибок первого и второго рода.

Пусть в результате обучения дикторов все множество объектов распознавания И было разбито на непересекающиеся подмножества каждое из которых отвечает соответствующему диктору. Обозначим объекты, относящиеся к каждому классу, следующим образом:

Рассмотрим величину S(u>, i}q) — меру близости между распознаваемым объектом со и классом Qq, q = 1,2,..., га, заданным своими объектами

Для определения меры близости или подобия необходимо ввести метрику выбор метрики произволен.

Евклидова метрика,:

где хрк есть значение j-ro признака к-го объекта р-го класса, то есть объекта ирк; xJql — значение j-го признака I-го объекта q-го класса, то есть объекта сoqi.

Взвешенная метрика Евклида или метрика Махалонобиса:

где Hj — весовые коэффициенты, определенные специальным образом.

Мера Хем,минга: где

Также можно использовать меру Чебышева,:

Одной из самых простых метрик является 1-метрика:

где хрк есть значение j-ro признака к-го объекта р-го класса, то есть объекта ujpk; xJql — значение j-ro признака I-го объекта q-го класса, то есть объекта uoqi.

Под ошибкой первого рода будем понимать число ошибок того, что результат решающего правила (3.1) будет равен значению 0, хотя должен быть равен 1. То есть ошибкой первого рода является число несовпадения векторов признаков речевых сигналов, принадлежащих одному и тому же диктору.

Под ошибкой второго рода будем понимать число ошибок того, что результат решающего правила (3.1) будет равен значению 1, хотя должен быть равен 0. То есть ошибкой второго рода является число совпадения векторов признаков речевых сигналов, принадлежащих разным дикторам.

Под надежностью распознавания диктора будем понимать уровень ошибок первого и второго рода: чем меньше число ошибок верификации диктора, тем надежней система.

Проведенные исследования [20] показали, что самой эффективной относительно надежности верификации диктора является самая простая /i-метрика, поэтому ее и рекомендуется использовать для верификации диктора.

В настоящее время широко применяются решающие правила, которые используют нейронные сети с линейными и нелинейными разделяющими функциями, что требует серьезного изучения эффективности использования данного подхода. Уже первые исследования позволяют утверждать, что с помощью данного подхода можно добиться высокой надежности [б; 51].

Также вместо меры близости между распознаваемым объектом и и классом Ид можно взять следующую меру сходства образов:

Мера S' дает более высокую надежность, чем мера S [20].

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >