Голос человека в мире высоких технологий

Голос человека в мире высоких технологий
  Светлана Полковникова

«Горячие линии» - узкий и непростой сегмент рынка информации. Очень многие раздражаются, получая по телефону назойливые звонки различных структур с «опросами», представляющими собой на самом деле продвижение собственных услуг. Однако когда людям необходима помощь, например, при работе с сайтом госуслуг, они сами начинают искать «горячие линии», чтобы получить нужную информацию. И тогда им просто необходимы профессионалы этого дела. Такие, как Светлана Полковникова, создавшая компанию «Войс Коммьюникейшн» («ВойсКом»), которая уже несколько лет не только вполне успешно конкурирует с ветеранами и крупнейшими брендами этого рынка, но и занимается собственными научными изысканиями в сфере изучения человеческого голоса. Об этом направлении деятельности фирмы мы и поговорили со Светланой. 

- Одним из ключевых направлений наших научных изысканий является голосовая биометрия, - рассказывает Светлана Полковникова. – Голос человека является уникальным инструментом: можно с высокой степенью вероятности определить принадлежность голоса, проходящего биометрическую проверку. Каждый из нас имеет уникальное строение голосовых связок, расположение зубов, особенности строения горла и так далее. Так же, как мы по голосу сразу же узнаем звонящего нам по телефону знакомого, так и система определяет владельца уникального голосового слепка. 

- В чем состоит сложность проведения голосовой верификации и с какими проблемами сталкиваются исследователи, если есть ряд особенностей голоса, которые можно оцифровать и применить последовательность алгоритмов?

- Я бы разделила их на две части: первая присуща в целом системам, направленным на работу с голосом, вторая в большей степени присуща именно голосовой биометрии.

- Можете рассказать подробнее?

- Конечно. Первая – шум. Это одна из основных проблем, влияющих на качество распознавания. Здесь научная мысль идет по двум направлениям. Одно – создание систем классифицирующих шумы, обменивающихся данными о их определении и принадлежности. В этой части компания «ВойсКом» разработала уникальную систему распознавания «акустической сцены». Сейчас я не буду подробно останавливаться на упомянутой системе, она заслуживает отдельного рассмотрения, но суть ее заключается в обучении распознавания шумов, их классификация, обмен данным между ядрами системы.

Другое направление: создание аппаратного комплекса, чувствительных микрофонов с шумоподавлением, правильно подобранными амплитудно-частотными характеристиками микрофона, а так же работа с канали передачи данных, типом кодирования каналов и так далее.

Второй большой пласт изысканий, как я вижу, в большей степени относится именно к биометрическому распознаванию, как, например, психофизическое состояние человека, скорость речи, эмоциональное состояние. Низкие параметры по обоим направлениям могут сделать невозможным прохождение биометрической голосовой проверки, но это происходит не часто, и биометрическое распознавание является надежным каналом биометрической верификации. Согласно исследованиям ряда ученых, голоса относятся к лидирующим среди таких биометрических систем, как сетчатка глаза, отпечатки пальцев*.

- И каковы же результаты ваших исследований?

- В компании «ВойсКом» мы достигли впечатляющих результатов по построению системы голосовой биометрии. Мы производим анализ на основе слепков двух файлов с аудиоданными длительностью не менее 12 секунд слитной речи каждый. Верификация голоса диктора по слепку на аудиофайле длительностью не менее семи секунд слитной речи.

- Какова схема работы голосовой биометрической верификации диктора?

- Всю работу с системой можно разделить на три основных этапа: создание общей голосовой модели (Universal Background Model UBM); создание голосового слепка диктора (Enrollment); верификация диктора по некоторому голосовому слепку на основе модели GMM-UBM.

 

Общей частью для всех трех этапов является процессинг речевых данных, позволяющий получать из голоса набор признаков, с которыми далее работает система.

- Что вы можете сказать относительно процессинга речевых данных?

-  Обработка речевого сигнала происходит в три шага: предобработка для поучения речевых фреймов, с помощью алгоритма обнаружения речевой активности (VAD); извлечение признаков из речевых данных; вычисление скоринга, позволяющий оценить степень схожести верифицируемого диктора с его голосовым слепком.

Для верификации голоса мы прежде всего нарезаем голосовой поток на фреймы, длительностью 25мс.

- А что с обнаружением речевой активности?

- Мы используем три разных характеристики для каждого фрэйма. Первая характеристика это краткосрочная энергия (Е). Это — наиболее часто используемая характеристика в определении речи/тишины. Однако, она становится неэффективной в условиях шума, особенно при низких SNR. Поэтому, мы используем еще две характеристики, которые вычисляются из частот.

Вторая характеристика – мера спектральной плоскостности (SFM — Spectral Flatness Measure). Мера зашумленности спектра хорошо себя показывает в голосовом/неголосовом детекритовании и обнаружении тишины.

Считается SFM по следующей формуле: 

Это соответственно среднее арифметическое и среднее геометрическое спектра речи.Третья характеристика – составляющая фрэйма речи с преобладающими частотами (most dominant frequency component). Она вычисляется через нахождения такой частоты, которая соответствует максимальному значению величины спектра | S(k) |.Комбинируя эти три признака, алгоритм эффективно определяет фреймы с наличием речевой информации.

- Что вы мождете сказть об извлечении признаков из речевых данных?

- Исходный речевой сигнал, полученный на предыдущем шаге представляется в дискретном виде как:  Следующим шагом к нему применяется преобразование Фурье. Далее составляется гребенка фильтров, используя оконную функцию. Далее преобразование значения частоты в мел-шкалу. После этого вычисляется энергия для каждого окна. На финальном этапе применяется дискретное косинусное преобразование. Результатом данных действий является набор MFCC, который будет использоваться для верификации спикера.

- Можете раскрыть детали этого процесса?

- Гауссова смесь – это сумма всех взвешенных гауссиан. Для представления весовых коэффициентов вводится новый символ π. Например, πk означает вероятность того, что x принадлежит k-той гауссиане: 

Обучение гауссовой смеси проходит в два этапа. Первый – расчет принадлежностей. Для этого вводится новый символ γ. Он означает принадлежность k-й гауссианы к генерации n-й точки. Таким образом, это просто отношение данной гауссианы к сумме всех гауссиан.Второй этап – перерасчет всех параметров гауссиан, то есть среднего значения, ковариации и πk. Мы взвешиваем влияние каждого примера на параметр через принадлежность.

Далее – универсальная фоновая модель (UBM). Фактически, это GMM, обученная на большой выборке данных. Результатом обучения данной модели является акустическая модель обобщенного диктора.

Следует скзать также о создании голосового слепка диктора с помощью Алгоритма Адаптации (MAP Adaptation). Сначала рассчитывается апостериорная вероятность на адаптационных данных и достаточные статистики для веса, медианы и дисперсии каждой гауссианы. Затем полученные статистики комбинируются с параметрами UBM и получаются параметры адаптированной модели. В нашем случае мы адаптируем только медианы, не затрагивая остальных параметров.

- Как происходит верификация спикера?

- Для реализации алгоритма идентификации используется GMM-UBM система. Модель гауссовых смесей определяется векторами математического ожидания, ковариационной матрицей ∑, векторами весов и количеством компонент смеси M. Для определения первых трех значений используется обучение с помощью алгоритмов k-средних и EM (Expectation Maximization) методом максимального правдоподобия.

Для идентификации диктора необходимо найти модель, наиболее близкую к тесовой записи. После нахождения наиболее близкой модели необходимо отнести запись к зарегистрированному или незарегистрированному пользователю. На основе сравнения этого значения с порогом и принимается решение о тестируемом дикторе.

- И каковы же результаты?

- В лабораторных условиях мы достигли следующих показателей: была натренирована модель на датасете, взятом из открытых источников с англоговорящими спикерами (5000 англоязычных спикеров, длительность записи по 10 минут на спикера).

Для оценки качества биометрической верификации голоса в лаборатории были произведены тестовые записи 52 человек, произносящих несколько фраз: две фразы длительностью по 12-15 секунд для создания голосового слепка и три фразы для экспериментов по верификации.

Для каждого из 52-х спикеров был создан голосовой слепок, после чего произвелось тестирование по принципу верификации каждого спикера на слепках всех остальных спикеров. То есть общее число попыток верификации было 52*52 = 2704 штук.

В результате этого мы получили следующие показатели: 

EER = 4.12%, что является прекрасным результатом, превосходящим многие существующие решения.

- Каковы ваши дальнейшие планы в этих исследованиях?

- Мы не останавливаемся на успехах, и сейчас перед нами стоят такие задачи, как расширение базы данных (датасета), содержащей записи, собранные в условиях аналогичных проекту (с его микрофонами, шумами, уровнем реверберации и так далее); оптимизация движка (например использовать CQСС вместо MFCC); более точное обучение модели; оптимизация скорости верификации; проработка вариантов работы с чанками; создание системы, которая сможет привести к ошибке верификации (EER) на телефонном канале не выше двух процентов; скорость верификации не более одной секунды на десятисекундном отрезке аудио.

- Спасибо за подробное и содержательное интервью!

*По данным  Ю. Н . Матвеев ТЕХНОЛОГИИ БИОМЕТРИЧЕСКОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ ПО ГОЛОСУ И ДРУГИМ МОДАЛЬНОСТЯМ, стр 47.