ГОЛОСОВАЯ БИОМЕТРИКА

Основные понятия голосовой биометрики

Понятие «биометрия» появилось в конце XIX века и подразумевает раздел науки, занимающийся количественными биологическими экспериментами с привлечением методов математической статистики. Под биометрикой понимают прикладную область знаний, использующуюся при создании различных автоматических систем распознавания по уникальным признакам, присущим человеку [5; 9].

Необходимо отметить, что в отечественной научно-популярной литературе вместо термина «биометрика», образованного путем транслитерации английского слова «biometrics», используется термин «биометрия», который, в свою очередь, появился как транслитерация слова «biometry». Последний термин был введен в употребление Френсисом Гальтоном в 1889 году в работе, посвященной проблемам природной наследственности [5]. В дисциплину биометрии сегодня входят такие задачи, как измерение и обработка данных в биологических экспериментах, математическое моделирование в биологии, биологическое приложение теории планирования эксперимента и т. д. В данном учебном пособии будем придерживаться термина «биометрика», так как рассматриваться будет только задача автоматического распознавания диктора.

Под биометрическими технологиями чаще всего понимают автоматические или автоматизированные методы распознавания личности человека по его биологическим или поведенческим признакам. Биологическим признаком может быть любая врожденная или медленно меняющаяся характеристика, индивидуальная для каждого человека, такая как отпечаток пальца руки и губ, форма и термограмма лица, сетчатка и радужная оболочка глаза, голос, геометрия руки и ладони, запах тела и почерк. Также можно рассматривать другие части тела человека, например, походку, ушные раковины и первичные половые признаки [9].

С помощью голосовой биометрики можно решать следующие задачи:

  • • оценка намерений и наклонностей индивидуума;
  • • оценка эмоционального состояния человека;
  • • определение пола и роста человека;
  • • медицинская диагностика состояния здоровья человека.

Решение этих задач важно для предупреждения возможных последствий или непредвиденных ситуаций не только в самой биометрической системе, но и в целом для безопасности.

Биометрической характеристикой человека (БХЧ) называется его измеряемая черта фенотипа или персональная поведенческая характеристика [5]. Указанные характеристики делятся на две группы:

• статические (физиологические) характеристики — физические характеристики, которые обычно измеряются в определенный момент времени, то есть уникальные характеристики, данные человеку от рождения и неотъемлемые от него. Например, отпечаток пальца, геометрия руки, рисунок сетчатки глаза, радужная оболочка и т.

д-;

• динамические (поведенческие) характеристики — последовательность действий, длящаяся в течение определенного периода времени. Это поведенческие (динамические) характеристики человека, которые построены на особенностях, характерных для подсознательных движений в процессе воспроизведения какого-либо действия. Например, рукописная подпись, голос, клавиатурная подпись и т. д.

Биометрические характеристики могут обладать следующими свойствами [5; 9]:

  • • универсальность — наличие БХЧ у каждого человека;
  • • уникальность (различимость) — невозможность существования двух людей с одинаковыми БХЧ;
  • • стабильность (постоянство, перманентность) — БХЧ должны быть постоянны во времени;
  • • собираемость (измеримость) — возможность быстрого и легкого получения биометрической характеристики от каждого индивидуума;
  • • эффективность — характеристика должна давать надежное распознавание человека;
  • • доступность — степень удобства и быстроты предъявления БХЧ.

Выбор источника БХЧ является основной задачей при создании конкретных биометрических технологий. Идеальная БХЧ должна быть универсальной, уникальной, стабильной, собираемой. Реальные БХЧ не идеальны, и это ограничивает их применение. Необходимым условием использования тех или иных БХЧ является их универсальность и уникальность.

Разработчики и исследователи биометрических систем предлагают программные реализации на основе, как правило, одной биометрической характеристики. Однако современные тенденции показывают стремление использовать системный подход для создания мультибиометриче- ских систем аутентификации личности. Здесь под мультибиометриче- ской системой будем понимать систему с использованием нескольких биометрических характеристик человека, которые могут быть интегрированы на разных уровнях и использованы различными способами [9]. Мультибиометрические системы принято разделять на два подкласса: мультимодальные и многофакторные системы аутентификации. В мультимодальных системах биометрические характеристики человека обрабатываются с помощью различных методов, и принятие решения происходит по объединенному решающему правилу для повышения надежности. В многофакторных системах используют не только равные биометрические характеристики, но и другие методы аутентифкации, например, PIN-код, пароль, ритм ввода пароля, токены.

Стоит подробно остановиться на главных понятиях в биометрике — это верификация, идентификация и аутентификация. Под этими понятиями зачастую скрываются различные смыслы, что связано с разнообразием специальной терминологии.

Начнем с понятий «идентификация» и «аутентификация» на примере аутентификации при входе в операционную систему. Пользователь сначала авторизуется, и ему присваивается уникальный идентификатор (логин), этот процесс называется верификацией. При входе в систему пользователь предъявляет свой идентификатор (логин), при этом система должна проверить существование данного пользователя в системе, этот процесс является идентификацией. Затем система должна удостовериться, что данный пользователь действительно является тем, за кого он себя выдает. Пользователь вынужден ввести свой пароль, который знает только он, этот процесс называется аутентификацией.

Здесь стоит отметить, что процесс идентификации в случае такого уникального идентификатора, как БХП, можно рассматривать как аутентификацию. Аутентификацию не следует путать с общим понятием идентификации: идентификация человека — это установление личности самого физического лица, а не его виртуальной учетной записи.

Теперь перейдем к рассмотрению понятий верификации, идентификации и аутентификации в биометрике.

Идентификация — это проверка наличия субъекта в списке зарегистрированных пользователей и выявление того, кто он; осуществляется многократным сравнением по всему списку зарегистрированных пользователей (так называемый режим «один ко многим»).

Верификация — это режим идентификации, в котором предварительно с помощью какого-либо идентификационного номера субъект называет себя (так называемый режим «один к одному»). В этом случае вместо многократного сравнения по всему списку зарегистрированных пользователей осуществляется единственное сравнение и устанавливается, действительно ли предъявленная биометрическая характеристика соответствует «названной» записи в списке.

В общем смысле под аутентификацией в биометрике понимают метод проверки подлинности, позволяющий достоверно убедиться в том, что субъект действительно является тем, за кого себя выдает.

Дадим теперь понятия верификации, идентификации диктора в рамках голосовой биометрики.

Задача идентификации состоит в выделении одного диктора по наблюдаемому голосу из множества известных системе дикторов. В зависимости от наличия во множестве дикторов элемента, соответствующего решению «диктор неизвестен», задачу идентификации подразделяют на открытую (решение «диктор неизвестен» во множестве дикторов присутствует) и закрытую (решение «диктор неизвестен» во множестве дикторов отсутствует). В дальнейшем в учебном пособии будет употребляться термин «идентификация диктора» как общий термин закрытой и открытой идентификации.

В задаче верификации диктор считается известным, и необходимо по наблюдаемому фрагменту речи сделать заключение о принадлежности его данному диктору. Из определения задачи верификации видно, что ее можно рассматривать как задачу открытой идентификации с системой, обученной на одного диктора. Несмотря на это, системы верификации выделяют в отдельный класс ввиду их практической важности и повышенных требований к точности принятия решения, по сравнению с системами идентификации [57].

Под аутентификацией в голосовой биометрике обычно понимают одновременно как верификацию, так и идентификацию, когда нет необходимости уточнять задачу. Если придерживаться терминологии теории распознавания образов, вместо аутентификации можно использовать термин «распознавание».

В российском стандарте ГОСТ Р 54412-2011/ISO/IEC/TR 24741:2007 определяется структура обучающей программы по биометрии: описание архитектуры биометрических процессов и процессов как таковых; сведения о национальных стандартах в области биометрии; термины и определения, применяющиеся в данных национальных стандартах в области биометрии.

Существует признак, по которому системы идентификации делятся на два класса. Этим признаком является грамматическое представление используемого речевого сигнала:

  • текстозависимы,е системы используют грамматически один и тот же речевой сигнал, другими словами, при обучении и при аутентификации диктор должен произносить одну и ту же фразу;
  • текстонезависим,ые системы не зависят от грамматической структуры используемого речевого сигнала, другими словами, при обучении и аутентификации диктор может произносить произвольный текст.

Системы, использующие установление личности по речи, можно разделить на два основных класса: системы контроля доступа и системы криминалистической идентификации.

Системы контроля доступа, используются для разграничения прав доступа в информационных или физических объектах с помощью аутентификации диктора. Примерами таких систем могут быть:

  • • системы ограниченного пользования служебных и индивидуальных помещений;
  • • автоматическая оплата междугородных телефонных переговоров;
  • • системы контроля доступа к вычислительным системам;
  • • управление банковскими счетами по телефону;
  • • запрос информации из баз данных по телефону;
  • • заказ билетов по телефону и т. п.

Системы криминалистической идентификации являются старейшими представителями систем аутентификации диктора по голосу [8]. Несмотря на это, данная область исследований активно развивается как в России, так и за рубежом. Примерами систем криминалистической идентификации могут выступать:

  • • анализ записей переговоров при различных аварийных ситуациях;
  • • анализ записей телефонных переговоров при их санкционированном прослушивании;
  • • установление личности диктора по фонограмме;
  • • доказательство в суде и т. и.

Необходимость в определении того, принадлежит ли голос подозреваемого записям речи в телефонных каналах возникает при анализе телефонных звонков в случае ложных сообщений, наркодеятельности, вымогательства или сексуальных домогательств [23]. При этом, в отличие от верификации, предметом анализа могут быть лишь записи речевых сигналов, подлежащих сравнению, либо вновь выполненные записи речи подозреваемого. В последнем случае подозреваемый обычно не заинтересован в его идентификации, и его речь может быть сознательно искажена. К тому же, условия такой записи, выполненной, например, в тихой комнате для допросов, могут сильно отличаться от условий, в которых подлежащие сравнению речевые сигналы были сгенерированы и переданы по каналу связи, а записанные фразы могут быть разными.

В криминалистике подозреваемого могут попросить прочитать текст, соответствующий транскрипции ранее записанной речи, но, как показал опыт, этот прием не очень эффективен.

Представители органов криминалистики заинтересованы в том, чтобы получить однозначный ответ от принадлежности биометрических параметров. Например, исследовательская группа Федерального бюро расследований США утверждает, что в отношении отпечатков пальцев приемлемо только однозначное решение - «совпадает/не совпадает», и не должны использоваться никакие оценки типа «возможно, вероятно, может быть». Но даже и в отношении отпечатков пальцев такая позиция мало обоснована. Считается, что вероятность ложного совпадения отпечатков пальцев порядка 10_6, хотя на этот счет отсутствуют статистически достоверные исследования. Что же касается автоматического распознавания отпечатков пальцев, то вероятность ложного опознания гораздо выше — около 2% для 4 пальцев (Fingerprint Verification Competition, 2004). Не случайно при верификации личности в важных случаях требуются отпечатки всех десяти пальцев. Решение об идентичности только по одному отпечатку вообще имеет высокий риск ошибки.

Научные основы применения технологии идентификации голоса в криминалистике широко обсуждались [23]. Общее мнение состоит в том, что идентификация по голосу отличается от отпечатков пальцев и генетике, где вариации очень малы, и нет абсолютно надежного метода для определения того, принадлежат ли речевые сигналы одному и тому же человеку. В криминалистике распознавание диктора может иметь только вероятностный характер, т. е. с указанием правдоподобия того, что два речевых сигнала принадлежат одному и тому же человеку. В условиях телефонного канала проблематично даже распознавание пола или возраста. В силу малой выборки речевых сигналов доверительный интервал оценки правдоподобия принадлежности двух записей речи одному и тому же диктору столь велик, что однозначное решение невозможно.

Специальный тест с парным сравнением речевых сигналов длительностью 5 с показал 53% правильного распознавания фонетистами, которым было разрешено пользоваться любыми техническими средствами, и 46% — не фонетистами. В других тестах диапазон составлял 38-76%. Эти оценки наглядно показывают степень неопределенности принятия решений.

В соответствии с этим мнением, в судебной практике США, Великобритании и Франции экспертное заключение об идентичности записей речи не принимается в качестве юридического доказательства. Это вполне логично, поскольку в практике уголовного расследования при визуальной идентификации личности требуется сравнение с некоторым количеством похожих лиц, тогда как решение об идентичности голосов, основанное только на сравнении перехваченных записей речевого сигнала и голоса подозреваемого, без сравнения с голосами множества других дикторов, содержит высокий риск ошибки. Этот риск может не остановить от принятия решения в некоторых случаях, как это было описано в книге Л.И. Солженицына «В круге первом», но обязанность научного сообщества состоит в том, чтобы предупредить об отсутствии оснований для категорических решений.

В областях радио-разведки, контр-разведки и антитерростическом мониторинге идентификация диктора не носит юридического характера. Поэтому решение о степени близости голосов принимается на основе вероятностных количественных оценок, и само по себе не является двузначным. В такой постановке государственных организаций задача идентификации голосов имеет определенную специфику, связанную искажениями и помехами в каналах связи. Поскольку фонетическое содержание сравниваемых речевых сигналов обычно различно, то государственные организации заинтересованы в исследованиях распознавания диктора независимо от контекста. Конечно, и в этом случае разработка методов идентификации голосов содержит негативный аспект, связанный со злоупотреблениями виде вмешательства в частную жизнь или надзор за оппозицией правящего режима.

Преимущества установления индивидуальности но голосу при решении подобных прикладных задач очевидны [3; 5; 9]:

  • • голос является «натуральным биометрическим параметром» — одним из тех, которые люди применяют, чтобы идентифицировать ДРУГ Друга;
  • • образцы голоса могут быть получены абсолютно незаметно;
  • • голос не отчуждаем от человека (в отличие от ключа, магнитной карты и даже пальца с его отпечатками);
  • • он не требует непосредственного контакта с пропускной системой (как это необходимо для отпечатка пальца, ладони, подписи), возможно использование телефонного канала;
  • • в случае каждого обращения к системе можно доказать авторство того или иного действия, например, сохранить биометрические данные злоумышленника;
  • • для обработки голоса не требуется дорогое оборудование, с ним легко работать, используя повсеместно распространенную телекоммуникационную инфраструктуру;
  • • голос позволяет проводить проверку личности в течение некоторого периода времени;
  • • затрудняется дистанционный подбор идентифицирующей информации;
  • • авторизация выполняется вне зависимости от языка операционной среды и кодировок символов;
  • • идентификация по голосу является языконезависимой системой.

Государственные организации, бизнес-структуры и частные лица заинтересованы в обеспечении безопасности использования современных информационных технологий [23]. Обман и злоупотребления со стороны своих сотрудников наносят ущерб около 6% годовой прибыли, составляя, в среднем, около $100000 на каждый случай (в 14.6% случаев потери превысили $1000000) (Association of Certified Fraud Examiners, 2004). В банковской сфере потери от злонамеренной деятельности сотрудников финансовые потери могут достигать огромных величин. Несанкционированный доступ к конфиденциальной информации о финансовой деятельности компании, контрактах и планах чреват не только потерями, но и полным банкротством.

Передаваемые по телефону параметры кредитной карты в 12% случаев подслушиваются с последующим воровством денег с карты (American Bankers Association). Аналогично, параметры кредитной карты перехватываются в системах электронной торговли или в банкоматах. Украденные суммы исчисляются сотнями миллионов долларов в год.

Существует ряд ситуаций, в которых человеку необходимо подтвердить свое право на распоряжение материальными или информационными ресурсами, доступ к информации или в помещение, сейф и т.д. Подтверждение такого права осуществляется с помощью документов (паспорта, удостоверения личности, пропуска), физических (ключи, кредитные карты) или электронных средств (коды авторизации, пароли). В ряде случаев такие средства верификации личности либо неудобны, либо не обеспечивают необходимой степени защиты. Согласно решению Federal Financial Institution Examination Council, USA, от 2005 года, использование однофакторной методологии аутентификации личности (т. е. подтверждения личности с помощью ПИН-кода или буквенно-цифрового пароля) является неадекватным средством защиты в системах удаленного доступа к финансам. Поэтому, в дополнение к таким традиционным средствам, целесообразно использовать биометрические параметры человека. Преимущество биометрии заключается в том, что эти параметры всегда находятся при человеке, их нельзя забыть, потерять, передать другому человеку, украсть и довольно трудно воспроизвести.

Принципиальный недостаток всех методов биометрии, кроме речевого, состоит в постоянстве используемого биометрического кода, т. к. отпечатки пальцев или ладоней, рисунок радужной оболочки и черты лица неизменны для индивидуума. Этот недостаток препятствует применению этих методов в случаях, требующих особо высокой надежности идентификации личности, поскольку неизменный биометрический код может быть считан путем злонамеренного вторжения в программу распознавания. В отличие от биометрии по фиксированным параметрам, верификация по голосу обладает практически неограниченным потенциалом для снижения ошибки за счет использования все более длинных речевых сообщений. Верификации по голосу может использоваться в темноте, на расстоянии, в частности, по стандартному телефонному каналу, в условиях, когда невозможно получить изображение лица.

Добавление акустического распознавания диктора в несколько раз уменьшает ошибку распознавания по лицу/фигуре, но добавление визуальной информации лишь ненамного улучшает решение по акустике.

В определенных ситуациях, например, при получении команд пилотом, необходимо убедиться в том, что команда отдана лицом, имеющим на это право. Голос человека, передающего команду, может быть не знаком получателю информации, и в этом случае полезна автоматическая идентификация группы лиц, уполномоченных на отдание команд. Очевидно, такая ситуация может существовать не только в авиации.

Некоторые заболевания коры правого полушария головного мозга могут привести к потере способности к распознаванию голоса. Такое заболевание может быть достаточно скрытым, и в определенных условиях автоматическая идентификация голоса становится необходимой.

Метод аутентификации диктора но голосу обладает некоторыми недостатками [3; 5; 9]:

  • • существует возможность искусственного синтеза речи для имитации голоса конкретного человека, говорящего заданный текст;
  • • распознавание диктора по голосу сильно зависит от качества сигнала, системы идентификации чувствительны к фоновому шуму, канальному шуму и искажениям, создаваемым различными микрофонами;
  • • некоторые люди не могут говорить по причине болезней, физических недостатков или психических расстройств, глухоты, а также из-за временной потери голоса;
  • • речевые характеристики могут измениться с возрастом или под действием различных болезней или эмоционального состояния человека.

Сегментация дикторов в потоке разговора разных дикторов (audioindexing, diarization) необходима при разметке звуковых стенограмм, теле-конференций, радио- и теле-передач, интервью, расшифровке записей разговоров на вечеринке (cocktail-party), видео-клипы каникул. Извлечение мета-данных в виде пола говорящего, предмета дискуссии, имен участников позволяет осуществить автоматический поиск и индексирование. При сегментации, так же, как и при криминалистической экспертизе, диктор должен рассматриваться как не желающий сотрудничать, поскольку, в отличие от верификации, у нет задачи быть распознанным.

Различают методы сегментации, при которых определяются только моменты смены дикторов (speaker turn detection), и методы, в которых распознается диктор (speaker clustering). По данным [23], ошибка EER распознавания диктора составляет 15.4%.

В определенных условиях для сегментации достаточно распознать пол диктора. Если доступен достаточно длительный сегмент речевого высказывания, то распознавание пола может быть выполнено практически безошибочно. На коротких сегментах типа ударного гласного ошибка правильного распознавания мужского пола составляет 5.3%, а женского пола 3.1%.

В современном обществе человек вынужден запоминать пароли и PIN-коды для обеспечения доступа к разнообразным услугам. Эти данные часто теряются или забываются, что создает досадные проблемы и требует восстановления или смены этих кодов. Согласно оценкам Meta Group, каждый клиент, в среднем, звонит в службу помощи клиентам примерно 15 раз в год, причем от 20% до 50% звонков содержит просьбы о возобновлении или смене пароля (отчеты Gartner Group). Каждый акт возобновления пароля требует общения с человеком-оператором, и занимает, в среднем, около 3 мин, если пользователь помнит все правильные ответы на вопросы, задаваемые с целью подтверждения его права на возобновление пароля (типа «назовите девичью фамилию Вашей матери»). Это время может быть и гораздо больше.

В случае необходимости использования удаленного доступа, например, по телефону, удобство голосовой верификация пользователя приобретает решающее значение. Круглосуточный, ежедневный доступ, например, к управлению банковским счетом или финансовыми операциями обеспечивает оперативность и удобство при активной деловой деятельности.

Доступ к информации может осуществляться с помощью речевого общения и без формального процесса верификации. Например, если заранее известно, что речевой запрос на получение информации доступен только определенному лицу, то при получении такого запроса по умолчанию предполагается, что он принадлежит этому лицу, и выполняется оценка вероятности вторжения самозванца, на основании которой и принимается решение о доступе.

Автоматическая верификация пользователя позволяет исключить участие человеческого персонала в процессе санкционирования, повышая степень защищенности системы, экономя время и зарплату персонала при ежедневной и круглосуточной работоспособности.

Информационно-справочные службы или службы помощи клиентам получают значительную экономию средств от исключения человека- оператора и режима 7*24 (семь дней в неделю, 24 часа в сутки) готовности обслуживания. Согласно Gartner Group, смена пароля обходится при человеческом обслуживании от $10 до $31 (в среднем, $25) на каждый случай, что на каждую 1000 клиентов экономит до $375000 в год.

Финансовая выгода также может состоять в предотвращении финансовых или иных потерь, в сравнении с которыми затраты на обеспечение безопасности доступа более, чем оправданы.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ   След >