Command Palette
Search for a command to run...
Ali Behrouz Meisam Razaviyayn Peiling Zhong Vahab Mirrokni

초록
지난 수십 년 동안, 머신러닝 모델의 능력을 향상시키기 위한 연구의 핵심은 더 강력한 신경망 아키텍처를 개발하는 동시에, 이를 효과적으로 훈련할 수 있는 최적화 알고리즘을 설계하는 데 집중해왔다. 최근 언어 모델(LMs) 개발 분야에서의 진전에도 불구하고, 이러한 모델이 지속적으로 학습·기억하고 자가 개선되며 '효과적인 해법'을 탐색하는 방식에 대해 여전히 근본적인 과제와 해결되지 않은 질문들이 남아 있다. 본 논문에서는, 다수의 중첩된, 다수의 수준을 가진, 또는 병렬적인 최적화 문제를 하나의 모델로 일관성 있게 표현하는 새로운 학습 패러다임인 '중첩 학습(Nested Learning, NL)'을 제안한다. 각 최적화 문제는 독자적인 '컨텍스트 흐름(context flow)'을 갖는다. NL은 기존의 딥러닝 기법이 데이터로부터 학습하는 과정이 자신만의 컨텍스트 흐름을 압축하는 방식임을 밝히며, 대규모 모델에서 '컨텍스트 내 학습(in-context learning)'이 어떻게 발생하는지에 대한 설명을 제시한다. 또한 NL은 기존의 딥러닝에 새로운 차원(고차원의 컨텍스트 내 학습 능력을 갖는)을 제시함으로써, 더 표현력이 풍부한 학습 알고리즘을 설계할 수 있는 길을 제시한다. 이 패러다임은 뇌과학적으로 타당하고 수학적으로 투명한(white-box) 특성을 지니고 있으며, 본 연구는 다음과 같은 세 가지 핵심 기여를 통해 그 중요성을 강조한다. (1) 심층 최적화기(Deep Optimizers): NL 기반으로, 잘 알려진 기울기 기반 최적화기(예: Adam, 모멘텀을 적용한 SGD 등)가 실제로 기울기를 기울기 하강법을 통해 압축하는 것을 목표로 하는 연상 기억 모듈임을 보여준다. 이 통찰을 바탕으로, 심층적 기억 구조와/또는 더 강력한 학습 규칙을 갖춘 더 표현력이 풍부한 최적화기를 제안한다. (2) 자기 수정형 거인(Self-Modifying Titans): NL이 학습 알고리즘에 대한 통찰을 활용하여, 자신의 업데이트 알고리즘을 학습함으로써 스스로를 수정하는 방식을 배우는 새로운 시퀀스 모델을 제안한다. (3) 연속적 기억 시스템(Continuum Memory System): 기존의 '장기/단기 기억'이라는 전통적 관점의 일반화된 새로운 기억 시스템을 제안한다. 이 자기 수정형 시퀀스 모델과 연속적 기억 시스템을 결합하여, HoPE(High-order in-context learning with a Continuum Memory)라는 새로운 학습 모듈을 제시하였으며, 언어 모델링, 지속적 학습, 장거리 컨텍스트 추론 등 다양한 과제에서 희망적인 성능을 보였다.