Специалисты кафедры криптологии и кибербезопасности университета МИФИ разработали интеллектуальную систему, способную оценить запись человеческого голоса – не является ли она голосовым дипфейком. Разработанный продукт получил название «Сипуха» в честь ночной птицы, отличающейся особенно острым слухом.
Как рассказал руководитель проекта Дмитрий Ефанов, в основе системы лежит нейросеть, обученная различать дипфейки.
– В качестве данных для обучения нейросети использовалось более 200 тысяч записей человеческих голосов, среди которых были как подлинные записи, так и дипфейки, сгенерированные различными алгоритмами, – объяснил Дмитрий Ефанов. – Выявление дипфейков происходит благодаря анализу так называемых кепстральных коэффициентов – так специалисты по акустике называют некоторые важнейшие математические характеристики аудиосигналов, обычно рассчитываемые для коротких фрагментов аудиозаписей длительностью от 20 до 40 микросекунд.
Работа над данной системой началась в 2022 году. Но тогда это была чисто академическая задача, поскольку подделка голосов в это время требовала больших ресурсов и не была распространена. К 2024 году технологии подделки голоса стали гораздо доступнее и получили большое распространение – в частности, стали широко использоваться мошенниками. Таким образом, у первоначально научной разработки появились перспективы прикладного использования.

По словам Дмитрия Ефанова, сегодня задачей разработчиков «Сипухи» является создание облачного сервиса, который позволит легко и быстро подключать функцию распознания дипфейков к любой нуждающейся в этом системе коммуникации – например, к колл-центру или мессенджеру.
Многие коммерческие компании страны уже проявили интерес к проекту. Однако его разработчики не собираются останавливаться на достигнутом, в их планах – создание исследовательской лаборатории, в которой на регулярной основе будет совершенствоваться нейронная сеть, так как новые алгоритмы синтеза дипфейков появляются постоянно.
Мона Платонова.