614
Какая нейросеть генерирует аудиодипфейки лучше всего
Александр Мигуцкий, специалист по data science и ML в Positive Technologies, и его команда придумали методику тестирования и бенчмарки, составили типичный диалог «сотрудника банка» и его жертвы и сделали пробные записи.
В результате специалисты Positive Technologies сделали следующие выводы:
-
Высококачественную подделку голоса теперь можно выполнить не только через коммерческие API, но и с помощью open source. Скорее всего, интерес злоумышленников к подобным инструментам будет расти.
-
Лучшие результаты среди открытых сервисов показывает модель F5.
-
Инструменты для нейроулучшения аудио в некоторых случаях помогают повысить реалистичность сгенерированных семплов.
-
Модели клонирования голоса можно применять в редтиминге и пентестах: это поможет оценить устойчивость инфраструктуры к голосовым дипфейкам.
-
Быстрые атаки на основе 30-секундных семплов все чаще дают качественные результаты, что ставит под угрозу системы антифрода и голосовой верификации. Компаниям, разрабатывающим подобные решения, стоит учитывать эволюцию генераторов речи.




















