Голосовые базы

Для оценки надежности и эффективности модели текстозависимой верификации диктора необходимо использовать специализированные голосовые базы. В решении задачи распознавания диктора успех может быть достигнут только при наличии полноценной речевой базы, на которой можно проводить исследования и проверять эффективность предлагаемых решений. Такие голосовые базы должны быть специально составлены для тестирования модели текстозависимой верификации диктора, причем в них должны содержаться фразы дикторов для тестирования системы как в реальном режиме, так и в режиме атаки на систему, для эффективной оценки ошибок.

В США в 1989 году была создана специализированная база данных для работы с системами идентификации и верификации — YOHO. В Европе с 1995 года действует специализированная программа COST 250 «Автоматическое распознавание говорящего в телефонных сетях». В рамках этой программы уже созданы речевые базы IDIAP и LDP. Имеются и другие европейские программы: CAVE, M2VTS, POLYCOST и др. Следует обратить внимание на большую европейскую программу формирования речевых баз данных для телефонных приложений SPEECHDAT (головная организация «SIEMENS»). В настоящее время три фирмы сформировали уже подбазы для идентификации говорящего: IDIAP, VOCALIS, MATRA. Существуют и специализированные голосовые базы на итальянском (ELRA), французском (PolyVar) и русском языках («Голос-С база» и база ЦРТ).

Часть этих голосовых баз не удовлетворяют предъявляемым требованиям к тестированию в режиме атаки. Кроме того, все готовые голосовые базы стоят очень дорого, поэтому целесообразно собрать собственную базу. Так, например, поступают все производители систем аутентификации диктора по голосу. С этой целью были созданы собственные специализированные голосовые базы для тестирования модели текстозависимой верификации диктора.

Стоит отметить, что в серии российских стандартов ГОСТ Р 52633 содержатся: требования высоконадежной биометрической аутентификации личности на основе стандартных механизмов высоконадежной парольной аутентификации с длинными, плохо запоминаемыми людьми паролями из случайных букв (цифр), криптографических механизмов аутентификации и множества из нескольких относительно слабых биометрических механизмов при совместном использовании (ГОСТ Р 52633.0-2006); требования к формированию баз естественных (ГОСТ Р 52633.1-2009) и синтетических (ГОСТ Р 52633.2-2010) биометрических образов, предназначенных для тестирования биометрических систем, кроме того, к процессу создания таких баз в интересах оценки качества средств высоконадежной биометрической аутентификации при их обучении, тестировании и сертификации; требования к тестированию стойкости средств биометрической защиты к атакам подбора (ГОСТ Р 52633.3-2011).

В первой голосовой базе (ГБ1) собрано 20 дикторов в возрасте от 16 до 53 лет, каждый из которых произносит 20 раз фразу «Мама варит суп». Запись производилась с помощью всенаправленного микрофона с частотным диапазоном 100-10000 Гц, с входным сопротивлением

0.6 кОм и чувствительностью 80 дБ.

Вторая голосовая база (ГБ2) содержит 100 дикторов в возрасте от 16 до 63 лет, каждый из которых произносит 13-15 раз начало стихотворения А. С. Пушкина «Зимний вечер»: «Буря мглою небо кроет, / Вихри снежные крутя; / То, как зверь, она завоет, / То заплачет, как дитя». Запись производилась с помощью направленного микрофона с частотным диапазоном 100-13000 Гц, с входным сопротивлением 0.6 кОм и чувствительностью 66 дБ.

Третья голосовая база (ГБЗ) содержит 100 дикторов в возрасте от 16 до 53 лет, каждый из которых произносит 13 раз слово «абракадабра». Запись производилась с помощью всенаправленного микрофона с частотным диапазоном 100-10000 Гц, с входным сопротивлением 0.6 кОм и чувствительностью 80 дБ.

Четвертая голосовая база (ГБ4) содержит 12 дикторов в возрасте от 19 до 23 лет, каждый из которых произносит 50 раз звук «а». Запись производилась с помощью всенаправленного микрофона с частотным диапазоном 100-10000 Гц, с входным сопротивлением 0.6 кОм и чувствительностью 80 дБ.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >