23.07.2025, 10:47
Количество просмотров 614

Какая нейросеть генерирует аудиодипфейки лучше всего

В Positive Technologies протестировали семь моделей клонирования голоса: одну платную, четыре открытых и две для улучшения качества звука.
Какая нейросеть генерирует аудиодипфейки лучше всего

Александр Мигуцкий, специалист по data science и ML в Positive Technologies, и его команда придумали методику тестирования и бенчмарки, составили типичный диалог «сотрудника банка» и его жертвы и сделали пробные записи.

В результате специалисты Positive Technologies сделали следующие выводы:

  • Высококачественную подделку голоса теперь можно выполнить не только через коммерческие API, но и с помощью open source. Скорее всего, интерес злоумышленников к подобным инструментам будет расти.

  • Лучшие результаты среди открытых сервисов показывает модель F5.

  • Инструменты для нейроулучшения аудио в некоторых случаях помогают повысить реалистичность сгенерированных семплов.

  • Модели клонирования голоса можно применять в редтиминге и пентестах: это поможет оценить устойчивость инфраструктуры к голосовым дипфейкам.

  • Быстрые атаки на основе 30-секундных семплов все чаще дают качественные результаты, что ставит под угрозу системы антифрода и голосовой верификации. Компаниям, разрабатывающим подобные решения, стоит учитывать эволюцию генераторов речи.

Новости в вашей почте
mail

PLUSworld в соцсетях:
telegram
vk
dzen
youtube