Переход на архитектуру Zipformer позволил в 3 раза ускорить распознавание устной речи
Благодаря недавнему обновлению скорость реакции голосового робота увеличилась более чем в три раза. Это означает, что голосовой ассистент теперь отвечает на запросы пользователей ощутимо быстрее, поэтому взаимодействие с ним стало более плавным и естественным. Несмотря на значительное увеличение скорости, качество распознавания речи не только не пострадало, но и улучшилось.
Основным фактором, позволившим реализовать эти улучшения и достичь результата, стал переход на новую архитектуру нейросети Zipformer. Эта архитектура существенно ускоряет процесс распознавания и увеличивает его точность за счет уменьшенного количества слоев нейросети, специальных методов сжатия данных и ряда других механик. Ранее компания использовала технологию Conformer.
Новая архитектура позволяет значимо снизить требования к аппаратному обеспечению и экономить на вычислительных мощностях благодаря увеличению эффективности. Оптимизированное решение адаптировано для использования в контуре заказчика. Поэтому обновленный ASR по-прежнему можно запускать как на GPU картах для обеспечения максимальной производительности, так и на более доступных x86 серверах.
«Скорость отклика голосового робота является одной из трех важнейших характеристик, по которым пользователи оценивают "человечность" и "приятность" голосового ассистента. И мы смогли, как минимум, в три раза ускорить распознавание вопроса абонента, сделав взаимодействие с нашим голосовым роботом еще более комфортным. Сегодня Zipformer это новейшая и самая эффективная архитектура для задач распознавания речи, которая появилась только год назад. Я рад, что мы одни из первых смогли представить ее своим клиентам и подготовить надежное решение Enterprise уровня», — прокомментировал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский.