Глубокое обучение 2.0: новая архитектура нейросетей Колмогорова-Арнольда (КАН)

21.05.2024, 13:21

2635

Скороли мы подойдем к практическому воплощению «общего» искусственного интеллекта, способного решить большинство современных проблем экономики, науки и техники (но, увы не общества и человека - последним он скорее прибавит новых)? Сколько лет осталось до так называемой «технологической сингулярности», когда развитие науки и технологий с помощью ИИ превзойдет возможности для понимания ограниченным человеческим разумом? – рассуждает наш постоянный автор, историк, аналитик данных, кандидат политических наук Антон Дождиков.

Глубокое обучение 2.0: новая архитектура нейросетей Колмогорова-Арнольда (КАН) — Фото: Предоставлено автором

На рубеже апреля и мая 2024 года В Соединенных Штатах в знаменитых MIT и Caltex была разработана инновационная архитектура нейронных сетей, которую назвали в честь советских ученых – Андрея Николаевича Колмогорова (1903-1987 гг.) и Владимира Игоревича Арнольда (1937 -2010 гг.), отметив их выдающийся вклад.

Все новое – это хорошо воспроизведенное старое

Исследователи представили новую архитектуру нейронной сети под названием Kolmogorov-Arnold Networks (KAN) как альтернативу многослойным перцептронам (MLP). Отличие заключается в том, что KAN имеют обучаемые функции активации на весах, а не на нейронах, как у MLP. Эта архитектура основана на глубоких математических принципах, включая теорему об аппроксимации Колмогорова-Арнольда (или теорему о суперпозиции).

Исследование опубликовано пока в форме препринта, а следовательно его выводы нуждаются в дополнительном подтверждении. Тем не менее, работы в данной отрасли ведутся минимум с 1993 года, были особенно активны в 2020-ые, включая «Алгоритм глубокого машинного обучения для построения представления Колмогорова – Арнольда», «Еще раз о теореме о представлении Колмогорова–Арнольда», «ExSpliNet: интерпретируемая и выразительная нейронная сеть на основе сплайнов» и другие исследования.

Следует отметить тот факт, что математическая основа большинства современных нейросетевых технологий была разработана на рубеже 50-60х годов XX века.

Нейрофизиолог Фрэнк Розенблатт предложил концепцию персептрона (MLP), устройства, имитирующего работу человеческого нейрона, и создал первую компьютерную модель на машине IBM 704 еще в 1957 году. Первый нейрокомпьютер «Марк-1», способный распознавать отдельные буквы представлен им же в 1960 году. Впервые понятие искусственной нейронной сети введено в научный оборот в 1943 году.

Основные работы А.Н. Колмогорова «О представлении непрерывных функций нескольких переменных суперпозициями непрерывных функций меньшего числа переменных» и В.И. Арнольда «О функции трех переменных» опубликованы в 1956 и 1957 годах соответственно и переведены на английский язык и стали доступны в западном мире в начале 60-ых.

Пока не революция, но…

По мнению самих разработчиков, нейросети нового типа имеют ряд преимуществ: KAN, в отличие от MLP, может обрабатывать новую информацию без забывания старых данных, следовательно, модель постоянно находится в актуальном состоянии, не полагаясь на какую-либо новую базу данных или необходимость дообучения.

KAN обладают высокой точностью и интерпретируемостью, превосходя MLP. Эта инновационная архитектура может привести к созданию сетей, которые будут не просто немного лучше, а принципиально более способными справляться со сложными динамическими задачами.

Решение научных и производственных задач, таких как подбор данных. А отсюда уше даже не шаг, а полшага поисковых исследований. Фактически, KAN являются полезными «коллабораторами», помогающими ученым открывать математические и физические законы, а значт с последующим развитием – новые материалы для производства и лекарственные средства для медицины. Направление для применения самое широкое – от «самопрограммирования» информационных систем и нейросетей до использования в сфере биомедицины, например, в редактировании генома и получении организмов с заданными свойствами.

KAN обладают более быстрыми возможностями для нейронного масштабирования, чем MLP. Конечно, есть и определенные проблемы: KAN выдает ответы лучше и точнее привычных моделей, однако его обучение требует больших вычислительных мощностей и (или) большего времени. В прочем – это вовсе не «непреодолимое» препятствие, те же традиционные MLP за весь период их практического применения снабжали средствами оптимизации и повышения производительности.

На пути к «общему искусственному интеллекту»

Никто не знает, когда и на каком этапе произойдет «диалектический скачек», и мы получим действительно «общий» ИИ, а возможно даже пресловутый «сильный» искусственный интеллект, знакомый нам со страниц научно-фантастических романов. Однако с 2022 по 2023 гг. произошёл 2,8-кратный рост производительности тестируемых систем, и 49-кратный прирост с тех пор, как в 2018 г. возник бенчмарк MLPerf (Machine Learning Performance Benchmark).

Глубокое обучение 2.0: новая архитектура нейросетей Колмогорова-Арнольда (КАН)

ТАКЖЕ ПО ТЕМЕ