Как отличить deepfake от реального человека
Разработка VK показала, насколько deepfake стал доступным развлечением. Натянуть на себя лицо селебрити и выложить в сториз - наша новая реальность. "Масочки" и фильтры уходят в прошлое. И есть основания полагать, что довольно скоро в наш мир ворвутся "дипфейк-звонки".
Играть с подобными технологиями начали давно. Это сложные алгоритмы, заранее прописанные разработчиками. Но если раньше подобное видео было штучным товаром, сейчас рынок дипфейков уже набрал обороты. Синтезировать голос, мимику, лицо стало возможно благодаря специализированному ПО, которое совмещает картинку и звук.
Кроме того, уже появилось то, что можно назвать deepfake as a service - специальные приложения, где пошагово расписано, как из своего видео сделать deepfake.
Дипфейки не всегда безобидны по отношению к потребителям. Так, пользователи столкнулись с крупной финансовой аферой, связанной с банкротством биржи FTX. В видео, опубликованном под фейковым аккаунтом основателя биржи, говорится о том, что компания "в качестве компенсации" проводит розыгрыш и каждый может удвоить свои средства, просто отправив желаемую сумму на специальный адрес.
Примечательно, что растущее недоверие к контенту и рост осведомленности о технологии deepfake зачастую приводит к тому, что люди принимают подлинные видеозаписи за поддельные.
Распознать дипфейки пока еще можно технически. Хотя последнее поколение синтетических видео сгенерированы нейросетями очень качественно, и без помощи специальных программ распознавания "вывести на чистую воду" создателей практически невозможно.
Практически все IT-гиганты разрабатывают или даже уже тестируют свои решения для распознавания дипфейков. О своем желании борьбы с deepfake недавно заявил Роскомнадзор.
Одно из таких решений разрабатывают в ИТМО. Технологию оценки состоятельности экспертного мнения назвали "Эксперт". Сервис анализирует визуальную составляющую (само видео/картинку со спикером), акустическую (речь) и расшифровку (речь, переведенную в текст) по ряду характеристик. Анализируется конгруэнтность, насколько то, что говорит человек, соотносится с его жестами и мимикой. Среди остальных факторов анализа - агрессивность, уверенность, противоречивость. Тестировали и обучали технологию с использованием дипфейков на английском языке, собранных самостоятельно из открытых источников.