에이전트 체인: 다중 에이전트 증류와 에이전트 기반 강화학습을 통한 엔드투엔드 에이전트 기반 모델

최근 대규모 언어 모델(LLM)과 다중 에이전트 시스템의 발전은 심층 연구, 빌드형 코딩, 수학적 추론과 같은 복잡한 문제 해결 과제에서 놀라운 성능을 보여주고 있다. 그러나 기존의 대부분의 다중 에이전트 시스템은 정교한 에이전트 프레임워크를 기반으로 수작업으로 프롬프트 또는 워크플로우를 설계한 방식으로 구축되어 있어 계산적 효율성이 낮고, 데이터 중심 학습의 이점을 얻기 어렵다는 한계가 있다. 본 연구에서는 LLM 추론의 새로운 패러다임인 '에이전트 사슬(Chain-of-Agents, CoA)'을 제안한다. 이는 단일 모델 내에서 다중 에이전트 시스템과 동일한 방식(다중 턴 문제 해결, 다중 도구 및 다중 에이전트 활용)으로 원시적인 엔드투엔드 복잡한 문제 해결을 가능하게 한다. 에이전트 사슬 문제 해결 과정에서 모델은 동적으로 다양한 도구 에이전트와 역할 수행 에이전트를 활성화함으로써, 엔드투엔드 방식으로 다중 에이전트 협업을 시뮬레이션한다. LLM에 엔드투엔드 에이전트 사슬 문제 해결 능력을 유도하기 위해, 최첨단 다중 에이전트 시스템을 에이전트 사슬 경로로 변환하여 에이전트 기반 감독 미세조정을 위한 다중 에이전트 디스틸레이션 프레임워크를 도입한다. 이후, 검증 가능한 에이전트 기반 작업에 대해 에이전트 기반 강화학습을 적용하여 모델의 에이전트 사슬 문제 해결 능력을 추가로 향상시킨다. 이러한 과정을 통해 도출된 모델을 ‘에이전트 기반 모델(Agent Foundation Models, AFMs)’이라 부른다. 실증적 연구 결과, AFM은 웹 에이전트 및 코드 에이전트 설정에서 다양한 벤치마크에서 새로운 최고 성능을 달성하였다. 본 연구에서 모델 가중치, 학습 및 평가를 위한 코드, 학습 데이터를 포함한 전체 연구 자료를 완전히 오픈소스로 공개함으로써, 향후 에이전트 모델 및 에이전트 기반 강화학습 연구에 실질적인 기반을 제공한다.