Специалисты T-Bank AI научились управлять смысловыми процессами внутри нейросетей

23.07.2025, 18:10

Исследователи из лаборатории искусственного интеллекта (ИИ) T-Bank AI Research разработали новый способ интерпретации и управления языковыми моделями на основе метода SAE Match. Открытие позволяет напрямую влиять на ошибки и галлюцинации в большой языковой модели во время генерации текста. Об этом сообщили в научной лаборатории Т-Банка.

Специалисты T-Bank AI научились управлять смысловыми процессами внутри нейросетей — Фото: freepik

Языковые модели, такие как ChatGPT, строят свои ответы на основе многослойной архитектуры, где каждый слой обрабатывает информацию, «передавая» ее дальше. До последнего времени исследователи могли только фиксировать, какие признаки (или концепты) появляются в этих слоях, не понимая, как именно они эволюционируют.

Новый метод позволяет получить информацию, откуда модель взяла данные — из контекста запроса или внутренних данных, и контролировать ее поведение, предотвращая выдачу некорректных ответов. Он не требует дополнительных вычислительных ресурсов, его могут использовать любые компании. Это позволяет напрямую исправлять ошибки в конкретном месте, что позволит избежать больших затрат на дообучение моделей.

Эксперименты показали, что можно усиливать или подавлять определенные признаки на разных этапах обработки, тем самым изменяя стиль, тематику или тональность генерируемого текста. Это особенно важно для создания безопасных и этичных решений на базе ИИ — например, для фильтрации нежелательных тем в чат-ботах без их переобучения.