Какая нейросеть генерирует аудиодипфейки лучше всего

23.07.2025, 10:47

В Positive Technologies протестировали семь моделей клонирования голоса: одну платную, четыре открытых и две для улучшения качества звука.

Какая нейросеть генерирует аудиодипфейки лучше всего — Фото: ptresearch.media

Александр Мигуцкий, специалист по data science и ML в Positive Technologies, и его команда придумали методику тестирования и бенчмарки, составили типичный диалог «сотрудника банка» и его жертвы и сделали пробные записи.

В результате специалисты Positive Technologies сделали следующие выводы:

Высококачественную подделку голоса теперь можно выполнить не только через коммерческие API, но и с помощью open source. Скорее всего, интерес злоумышленников к подобным инструментам будет расти.
Лучшие результаты среди открытых сервисов показывает модель F5.
Инструменты для нейроулучшения аудио в некоторых случаях помогают повысить реалистичность сгенерированных семплов.
Модели клонирования голоса можно применять в редтиминге и пентестах: это поможет оценить устойчивость инфраструктуры к голосовым дипфейкам.
Быстрые атаки на основе 30-секундных семплов все чаще дают качественные результаты, что ставит под угрозу системы антифрода и голосовой верификации. Компаниям, разрабатывающим подобные решения, стоит учитывать эволюцию генераторов речи.

Какая нейросеть генерирует аудиодипфейки лучше всего

САМОЕ ПОПУЛЯРНОЕ

ТАКЖЕ ПО ТЕМЕ