Глубокое обучение 2.0: новая архитектура нейросетей Колмогорова-Арнольда (КАН)
На рубеже апреля и мая 2024 года В Соединенных Штатах в знаменитых MIT и Caltex была разработана инновационная архитектура нейронных сетей, которую назвали в честь советских ученых – Андрея Николаевича Колмогорова (1903-1987 гг.) и Владимира Игоревича Арнольда (1937 -2010 гг.), отметив их выдающийся вклад.
Все новое – это хорошо воспроизведенное старое
Исследователи представили новую архитектуру нейронной сети под названием Kolmogorov-Arnold Networks (KAN) как альтернативу многослойным перцептронам (MLP). Отличие заключается в том, что KAN имеют обучаемые функции активации на весах, а не на нейронах, как у MLP. Эта архитектура основана на глубоких математических принципах, включая теорему об аппроксимации Колмогорова-Арнольда (или теорему о суперпозиции).
Исследование опубликовано пока в форме препринта, а следовательно его выводы нуждаются в дополнительном подтверждении. Тем не менее, работы в данной отрасли ведутся минимум с 1993 года, были особенно активны в 2020-ые, включая «Алгоритм глубокого машинного обучения для построения представления Колмогорова – Арнольда», «Еще раз о теореме о представлении Колмогорова–Арнольда», «ExSpliNet: интерпретируемая и выразительная нейронная сеть на основе сплайнов» и другие исследования.
Следует отметить тот факт, что математическая основа большинства современных нейросетевых технологий была разработана на рубеже 50-60х годов XX века.
Нейрофизиолог Фрэнк Розенблатт предложил концепцию персептрона (MLP), устройства, имитирующего работу человеческого нейрона, и создал первую компьютерную модель на машине IBM 704 еще в 1957 году. Первый нейрокомпьютер «Марк-1», способный распознавать отдельные буквы представлен им же в 1960 году. Впервые понятие искусственной нейронной сети введено в научный оборот в 1943 году.
Основные работы А.Н. Колмогорова «О представлении непрерывных функций нескольких переменных суперпозициями непрерывных функций меньшего числа переменных» и В.И. Арнольда «О функции трех переменных» опубликованы в 1956 и 1957 годах соответственно и переведены на английский язык и стали доступны в западном мире в начале 60-ых.
Пока не революция, но…
По мнению самих разработчиков, нейросети нового типа имеют ряд преимуществ: KAN, в отличие от MLP, может обрабатывать новую информацию без забывания старых данных, следовательно, модель постоянно находится в актуальном состоянии, не полагаясь на какую-либо новую базу данных или необходимость дообучения.
KAN обладают высокой точностью и интерпретируемостью, превосходя MLP. Эта инновационная архитектура может привести к созданию сетей, которые будут не просто немного лучше, а принципиально более способными справляться со сложными динамическими задачами.
Решение научных и производственных задач, таких как подбор данных. А отсюда уше даже не шаг, а полшага поисковых исследований. Фактически, KAN являются полезными «коллабораторами», помогающими ученым открывать математические и физические законы, а значт с последующим развитием – новые материалы для производства и лекарственные средства для медицины. Направление для применения самое широкое – от «самопрограммирования» информационных систем и нейросетей до использования в сфере биомедицины, например, в редактировании генома и получении организмов с заданными свойствами.
KAN обладают более быстрыми возможностями для нейронного масштабирования, чем MLP. Конечно, есть и определенные проблемы: KAN выдает ответы лучше и точнее привычных моделей, однако его обучение требует больших вычислительных мощностей и (или) большего времени. В прочем – это вовсе не «непреодолимое» препятствие, те же традиционные MLP за весь период их практического применения снабжали средствами оптимизации и повышения производительности.
На пути к «общему искусственному интеллекту»
Никто не знает, когда и на каком этапе произойдет «диалектический скачек», и мы получим действительно «общий» ИИ, а возможно даже пресловутый «сильный» искусственный интеллект, знакомый нам со страниц научно-фантастических романов. Однако с 2022 по 2023 гг. произошёл 2,8-кратный рост производительности тестируемых систем, и 49-кратный прирост с тех пор, как в 2018 г. возник бенчмарк MLPerf (Machine Learning Performance Benchmark).
Вероятнее всего, что математическое основание «общего» или «универсального» ИИ уже разработано – и весь вопрос только в активизации междисциплинарного подхода и преодолении «туннельных» ограничений, свойственных отдельным группам исследователей. Впрочем, с преодолениями этих ограничений сети типа KAN уже могут помочь, хотя бы в качестве пресловутых «колабораторов».
Ждем новых успехов в области развития нейросетей и их применения. И одновременно просчитываем, во что обойдется современному обществу внедрение данных инноваций.