MIT, 새로운 AI 프레임워크 ‘SEAL’ 개발
MIT 연구팀이 개발한 새로운 프레임워크인 Self-Adapting Language Models(SEAL)은 대형 언어 모델(LLM)들이 자체 내부 매개변수를 업데이트하여 지속적으로 학습하고 적응할 수 있게 합니다. SEAL은 LLM이 자신의 훈련 데이터와 업데이트 지침을 생성하도록 가르쳐, 모델이 새로운 지식을 영구적으로 습득하고 새로운 작업을 배울 수 있습니다. 이 프레임워크는 특히 기업 어플리케이션에 유용할 것으로 보입니다. AI 에이전트가 동적인 환경에서 작동하며 지속적으로 새로운 정보를 처리하고 행동을 조정해야 하는 경우에 활용될 수 있습니다. LLM의 적응 문제 대형 언어 모델들은 놀라운 능력을 보여주지만, 특정 작업에 맞춘 적응, 새로운 정보 통합, 또는 새로운 추론 기술을 익히는 데는 여전히 큰 어려움이 있습니다. 현재로선 새로운 작업에 직면했을 때, LLM들은 일반적으로 '그대로' 데이터를 통해 미세 조정(finetuning)이나 문맥 내 학습(in-context learning) 방법을 사용합니다. 그러나 제공된 데이터가 항상 모델이 효율적으로 학습할 수 있는 최적의 형식으로 되어 있지 않으며, 기존 접근 방식은 모델이 새로운 정보를 가장 잘 변환하고 학습하는 전략을 스스로 개발할 수 없습니다. MIT 박사과정 학생인 Jyo Pari는 "많은 기업 사례는 단순한 사실 회상 이상을 요구한다. 예를 들어, 코딩 도우미는 회사의 특정 소프트웨어 프레임워크를 내재화하거나, 고객 서비스 모델은 시간이 지남에 따라 사용자의 고유한 행동이나 선호도를 배워야 할 수 있다"라고 VentureBeat에 말했습니다. 이러한 경우, 일시적인 검색은 부족하며, 지식은 모델의 가중치(weight)에 '내재화'되어 모든 미래 응답에 영향을 미쳐야 합니다. SELF-ADAPTING LANGUAGE MODELS (SEAL) "언어 모델의 척도적이고 효율적인 적응을 위해, LLM에게 자체 훈련 데이터와 해당 데이터를 사용하기 위한 미세 조정 지침을 생성할 수 있는 능력을 부여하자"라는 것이 MIT 연구진의 제안입니다. SEAL은 강화학습(Reinforcement Learning, RL) 알고리즘을 사용하여 LLM이 "자기 수정(self-edit)"—즉, 모델이 자신의 가중치를 어떻게 업데이트해야 하는지 설명하는 자연어 지침—을 생성하도록 훈련시킵니다. 이러한 자기 수정은 새로운 정보를 재구조화하거나 합성 훈련 예제를 생성하거나, 심지어 학습 과정 자체의 기술 매개변수를 정의하는 역할을 할 수 있습니다. 프레임워크는 두 가지 루프 시스템으로 작동합니다. "내부 루프"에서는 모델이 자기 수정을 사용하여 가중치를 임시로 작은 범위로 업데이트합니다. "외부 루프"에서는 시스템이 해당 업데이트가 목표 작업의 성능을 개선했는지를 평가합니다. 만약 성능이 개선되었다면, 모델은 긍정적인 보상을 받게 되며, 이는 미래에 이러한 효과적인 자기 수정을 생성하는 능력을 강화합니다. 시간이 지나면서 LLM은 스스로를 가르치는 것에 전문가가 됩니다. 연구진은 전체 SEAL 프레임워크에 대해 하나의 모델을 사용했지만, 이 과정을 "교사-학생" 모델로 분리할 수도 있다고 지적합니다. 전문 교사 모델은 효과적인 자기 수정을 생성하기 위해 훈련받고, 별도의 학생 모델이 업데이트됩니다. 이를 통해 기업 환경에서 더 특화되고 효율적인 적응 파이프라인이 가능해질 것입니다. SEAL의 실제 적용 연구진은 SEAL을 두 가지 주요 영역에서 테스트했습니다: 지식 통합(새로운 사실을 영구적으로 통합하는 능력)과 소량 샘플 학습(few-shot learning)(소수의 예제로부터 일반화하는 능력). 지식 통합: 모델이 질문 시점에 텍스트 내용에 접근할 수 없도록 하여 모델의 성능을 확인했습니다. Llama-3.2-1B를 원시 텍스트로 미세 조정했을 때 기준 모델보다 약간의 개선만 이루어졌습니다. 하지만 SEAL 모델이 여러 "함의(implications)"를 생성하여 이 합성 데이터로 훈련되었을 때, 정확도가 47%로 뛰어올랐습니다. 이는 훨씬 더 큰 GPT-4.1이 생성한 합성 데이터를 사용한 결과보다 우수하여, 모델이 스스로에게 최고의 훈련 자료를 만드는 방법을 배웠음을 시사합니다. 소량 샘플 학습: 연구진은 추상적 추론 집단(Abstract Reasoning Corpus, ARC)에서 시각적 퍼즐을 해결하도록 모델을 테스트했습니다. 자기 수정 단계에서는 모델이 어떤 데이터 증강(augmentation)과 도구를 사용할 것인지, 그리고 어떤 학습률을 적용할 것인지 전체 적응 전략을 생성해야 했습니다. SEAL은 72.5%의 성공률을 달성했습니다. 이는 RL 훈련 없이는 20%, 표준 문맥 내 학습은 0%의 성공률을 보인 것에 비해 크게 향상된 결과입니다. 기업에 대한 영향 일부 전문가는 향후 몇 년 내에 고품질의 인간 생성 훈련 데이터 공급이 고갈될 수 있다고 전망합니다. 연구진은 "모델이 고용량 훈련 신호를 자체 생성하는 능력"에 의존할 필요성이 커질 것으로 예측하며, "다음 단계는 특정 SEAL 합성 데이터 생성 모델을 메타 훈련하여, 미래 모델들이 추가적인 인간 텍스트에 의존하지 않고 데이터 효율성을 높이며 규모를 확장할 수 있도록 하는 것"이라고 강조했습니다. 예를 들어, LLM은 학술 논문이나 금융 보고서 같은 복잡한 문서를 소화하고 수천 개의 설명과 함의를 자동으로 생성하여 이해를 깊게 만들 수 있을 것입니다. "이런 자기 표현과 자기 개선의 반복적인 루프는 외부 감독이 없더라도 드물거나 과소 대표된 주제에서 모델이 계속 개선될 수 있게 한다"고 연구진은 설명했습니다. 이 기능은 특히 AI 에이전트 구축에 매우 유망합니다. 에이전틱 시스템은 환경과 상호작용하면서 점진적으로 지식을 획득하고 유지해야 합니다. SEAL은 이러한 상호작용 후 에이전트가 자기 수정을 합성하여 가중치 업데이트를 트리거하도록 제공합니다. 이는 에이전트가 경험에 따라 성능을 개선하고, 정적 프로그래밍이나 반복적인 인간 지도에 의존하지 않도록 돕습니다. SEAL의 한계 하지만 SEAL은 만능 해결책이 아닙니다. 예를 들어, 지속적인 재훈련 사이클로 인해 "파괴적 잊음(catastrophic forgetting)" 문제가 발생할 수 있습니다. 즉, 모델이 이전에 배운 지식을 잊어버릴 수 있습니다. "현재 구현에서는 하이브리드 접근 방식을 권장한다"라고 Pari는 말했습니다. "기업은 영구적으로 통합할 중요한 지식을 선택적으로 결정해야 한다." 사실적이고 진화하는 데이터는 RAG를 통해 외부 메모리에 유지되며, 장기적으로 행동을 형성하는 지식은 SEAL을 통해 가중치 수준 업데이트가 더 적합합니다. "이런 하이브리드 메모리 전략은 모델을 압도하거나 불필요한 잊음을 유발하지 않으면서도 필요한 정보가 지속적으로 유지될 수 있도록 한다"라고 그는 덧붙였습니다. 또한 SEAL은 자기 수정 예제를 조정하고 모델을 훈련시키는 데 상당한 시간이 필요합니다. 이로 인해 대부분의 생산 환경에서 지속적이고 실시간으로 수정하는 것은 실행 가능하지 않습니다. "더 실용적인 배포 모델을 상상해 본다면, 시스템은 일정 기간 동안—예를 들어 몇 시간 또는 하루 동안—데이터를 수집하고, 스케줄된 업데이트 간격 동안 대상 자기 수정을 수행할 것이다"라고 Pari는 설명했습니다. "이 접근 방식은 기업이 적응 비용을 관리하면서도 SEAL의 새로운 지식 내재화 능력에 여전히 혜택을 받을 수 있다." 산업계의 평가 SEAL은 대형 언어 모델들이 사전 훈련 후에도 정적인 상태에 머무르지 않도록 하며, 자체 합성 자기 수정 데이터를 생성하고 경량 가중치 업데이트를 적용하여 새로운 지식을 자율적으로 통합하고 새로운 작업에 적응할 수 있게 합니다. 이는 AI 기술의 발전에 있어 중요한 진전으로, 특히 동적인 기업 환경에서의 적응력과 효율성을 크게 향상시킬 것으로 기대됩니다. MIT 연구진은 이미 많은 주목을 받고 있으며, 이들의 연구는 언어 모델의 지속적 학습과 적응에 대한 새로운 패러다임을 제시하고 있습니다. 이 기술이 더욱 발전한다면, AI의 활용 범위와 성능은 크게 확대될 것입니다.