Оценка эффективности системы биометрической аутентификации

Тестирование любой системы биометрической аутентификации должно проводиться в соответствии с правилами тестирования систем идентификации, установленными в стандарте ИСО/МЭК 19795-1 «Автоматическая идентификация. Идентификация биометрическая. Эксплуатационные испытания и протоколы испытаний в биометрии». В соответствии с данным стандартом необходимо проводить три вида испытаний: идентификация на замкнутом множестве, идентификация на открытом множестве и верификация.

При тестировании должны определяться следующие параметры [48]:

  • 1. Вероятность отказа регистрации (ВОР); ВОР (FTE) — это доля выборки, для которой система не может закончить процесс регистрации. ВОР включает в себя Пользователей, которые:
    • • не могут предоставить запись голоса;
    • • не могут предоставить образец голоса с достаточным качеством;
    • • не могут получить результат оценки схожести со своим заново созданным шаблоном при процессе регистрации.

При технологическом испытании анализ основан на предварительно подготовленной тестовой речевой базе данных. Не смотря на это, даже в этом случае может произойти сбой в регистрации, например, в ситуации, когда качество записи речевого образца имеет столь низкое значение, что извлечь из него необходимые признаки становится невозможным. ВОР для целевой выборки следует определять как долю (или весовую долю) людей в испытуемой группе, которые не смогли зарегистрироваться в процессе регистрации.

  • 2. Вероятность отказа сбора данных (ВОСД); ВОСД (FTA) — это доля попыток верификации или идентификации, для которых биометрическая система не может получить или отобрать образец удовлетворительного качества. ВОСД должна включать в себя:
    • • попытки, при которых голосовая биометрическая характеристика не может быть получена (например, из-за физического состояния пользователя);
    • • попытки, при которых не удается произвести сегментацию или извлечение необходимых признаков;
    • • попытки, при которых извлеченные признаки не подходят по порогу проверки качества.

ВОСД можно определить для каждой транзакции, например, путем определения числа транзакций, в процессе которых ни при одной из попыток регистрации не был получен образец удовлетворительного качества для сравнения. При технологическом испытании анализ основан на предварительно собранной базе данных. ВОСД следует определять как долю (или весовую долю) записанных попыток подлинного лица (и, по возможности, любых пассивных попыток «самозванца» в режиме реального времени), которые не могут быть закончены из-за отказов в представлении (изображение не получено), сегментации, извлечении признаков или контроля качества.

3. Вероятность ложного несовпадения (В Л НС);

ВЛНС (FNMR.) — это доля образцов, полученных в результате попыток подлинного лица, которые ошибочно признаны несовпадающими с шаблоном зарегистрированного в системе пользователя. ВЛНС следует определять как долю (или весовую долю) зафиксированных попыток подлинного лица, которые были переданы подсистеме сравнения, и для которых степень схожести была ниже соответствующего порога принятия решения о схожести.

4. Вероятность ложного совпадения (ВЛС);

ВЛС (FMR.) — это доля образцов, полученных в результате пассивных попыток «самозванца», которые ошибочно признаны совпадающими с шаблоном зарегистрированного пользователя. При пассивных попытках «самозванца» пользователи предоставляют свою собственную биометрическую характеристику, как будто они совершают попытку успешной верификации с собственным шаблоном. Например, в случае динамической верификации подписи "са- мозванец"при пассивной попытке поставил бы свою собственную подпись. ВЛС следует определять как долю (или весовую долю) зафиксированных пассивных попыток «самозванца», которые были переданы подсистеме сравнения и для которых степень схожести не ниже соответствующего порога принятия решения о схожести.

5. Равновероятная ошибка (РВО);

РВО (EER.) — это доля образцов, полученных в результате пассивных попыток «самозванца», которые ошибочно признаны совпадающими с шаблоном зарегистрированного пользователя, совпадающая с долей образцов, полученных в результате попыток подлинного лица, которые ошибочно признаны несовпадающими с шаблоном зарегистрированного в системе пользователя.

6. Вероятность ложно недопуска (ВЛНД);

ВЛНД (FRR) — это доля транзакций верификации подлинного лица, которые были ошибочно отвергнуты. В зависимости от политики принятия решения транзакция может состоять из одной или более попыток подлинного лица. ВЛНД следует определять как долю (или весовую долю) записанных транзакций подлинного лица, которые были ошибочно отвергнуты. Сюда также входят транзакции, отвергнутые из-за отказа сбора данных и ошибок соответствия. Например, если транзакция верификации состоит из единственной попытки, то отказ сбора данных или ложное несоответствие вызовут ложный допуск, и ВЛНД будет равна сумме ВОСД с произведением ВЛНС и значения обратного ВОСД. ВЛНД зависит от политики принятия решения, порога принятия решения о схожести и качества образца, в связи с этим ВЛНД должна быть указана в протоколе вместе с данными параметрами с оценкой ВЛД для тех же параметров.

7. Вероятность ложного допуска (ВЛД);

ВЛД (FAR) — это доля транзакций верификации «самозванца», которые могут быть ошибочно приняты. Транзакция в зависимости от политики принятия решения может состоять из одной или более попыток «самозванца». ВЛД следует определять как долю (или весовую долю) записанных пассивных транзакций «самозванца»,которые были ошибочно приняты. Например, если транзакция верификации состоит из единственной попытки, то для ложного допуска необходимо, чтобы представленный образец не был отклонен при проверке качества (то есть не должно происходить отказа сбора данных) и произошла ошибка соответствия.

Также необходимо строить следующие зависимости:

  • 1. Зависимость В Л НС от В Л С;
  • 2. Зависимость ВЛНД от ВЛД;
  • 3. Зависимость ВОР от ВОСД.

В общее число показателей эффективности системы входят ошибки первого (вероятность пропуска самозванца) и второго рода (вероятность отказа), вероятность отказа от обучения, взломоустойчивость, реакция на заболевания и алкоголь, действия при многократном отказе, задержка принятия решения [23].

Вероятность пропуска самозванца указывает на степень защиты от злонамеренного вторжения, тогда как вероятность отказа законному пользователю определяет удобство эксплуатации системы распознавания. В зависимости от темперамента и условий применения разные люди по разному реагируют на отказ. Поэтому при некоторой вероятности отказа, независимо от надежности системы относительно злонамеренного вторжения, пользователь сам откажется от эксплуатации такой системы. Критический уровень вероятности отказа считается 10%, хотя на этот счет не известно достоверных исследований.

Согласно статистической теории решений, соотношение между ошибками первого и второго рода зависит от порога принятия решений, которые, в свою, очередь, определяются различными факторами, в том числе и индивидуальными предпочтениями пользователя. В качестве интегральной оценки эффективности системы распознавания диктора рассматривается среднегеометрическое Однако

средне-геометрическое — не постоянная величина, и она увеличивается с уменьшением вероятности пропуска до 1-2%, делая более предпочтительным отказ перед признанием диктора.

Другая оценка — взвешенная сумма стоимости отказа и пропуска. Это превосходная оценка для реальных систем. Интегральная оценка включает априорные вероятности появления самозванца и риск:

где Рдикт, Рсам вероятности появления диктора и самозванца, Рцроп, РОТк вероятности пропуска самозванца и отказа целевому диктору, Сцроп, Сотк - риск (стоимость) пропуска самозванца и отказа целевому диктору.

В этой оценке вероятности появления самозванца и риск должны устанавливаться самим пользователем, что лишает возможности сравнения различных систем распознавания. К тому же, совершенно неясно, на каком основании должны устанавливаться количественные показатели дикт, сам и проп, отк-

Национальный институт стандартов и технологий США (NIST) использует более простую оценку в виде функции минимальной стоимости детектирования ошибки detection cost function (DCF)

Наиболее полную характеристику системы распознавания дает функция зависимости вероятности пропуска самозванца от вероятности отказа (DET — Detection Error Trade-off). Обычно эта зависимость представляется в логарифмическом масштабе для удобства визуального анализа и сравнения различных методов.

Для того, чтобы была уверенность в достоверности указанных разработчиком вероятностей ошибок, необходимо оценивать статистическую значимость как по объему выборки речевых сигналов при тестировании, так и по числу тестированных дикторов. При малых объемах доверительный интервал может оказаться таким большим, что декларируемые вероятности ошибок не имеют ничего общего с действительностью. Некоторые авторы редлагают эвристическое правило 30, вытекающее из биномиального распределения: для того, чтобы быть уверенным на 90%, что полученная оценка верна, должно наблюдаться, по крайней мере, 30 ошибок. Вероятность пропуска в 1% означает, что должно быть не меньше 3000 испытаний для самозванца, а 0.1% отказа - не меньше 30000 испытаний для истинного диктора. Правда, при этом неясна справедливость предположения о независимости испытаний, на основании которой получено это правило.

В дополнение, должны быть указано, совпадали ли условия обучения и тестирования, а если нет - то насколько ухудшаются оценки. Как правило, коммерческие системы распознавания не сообщают всю необходимую информацию, и, как будет показано ниже, независимое тестирование показывает, что реальные характеристики в несколько раз хуже объявленных.

Средняя по множеству тестированных дикторов оценка вероятностей первого и второго рода также не вполне описывает эффективность системы распознавания. Голоса большинства дикторов обладает умеренной способностью к подтверждению личности. Такие дикторы называются овцами. Голоса других дикторов легко имитируются, и их называют ягнятами. Дикторы, голоса которых часто принимаются за голоса других дикторов, называются волками. Наконец, дикторы с нестабильными параметрами голоса и плохим показателем распознаваемости, называются козлами. Характеристика системы распознавания должна включать в себя процентное соотношение всех типов голосов, принимавших участие в тестировании.

Эффективность системы верификации диктора зависит от того, насколько она уязвима для злонамеренного вторжения самозванца с помощью имитации голоса целевого диктора или воспроизведения заранее записанной речи, а также попытки использования родственников с похожими голосами. У пользователей вызывает опасение отказ от верификации в случае простудных заболеваний. Необходимо также предусмотреть такие действия в случае многократного отказа от верификации, которые не увеличивают риск злонамеренного вторжения.

Установлено, что на результат распознавания диктора по голосу влияют уровень образования и интеллект (хотя эти факторы неудобно обсуждать по этическим соображениям).

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >