HyperAI

다음은 요청하신 텍스트의 한국어 번역입니다. 기술적 정확성과 학술적 문체를 고려하여 번역하였습니다.다중 에이전트 시스템(Multi-agent Systems)은 일반적인 추론 작업에서 우수한 성능을 발휘합니다. 그러나 특정 전문 영역에 대한 학습 부족은 시스템의 정확도를 저해하는 요인이 됩니다. 현재의 훈련 방식은 시스템 내 모든 에이전트에 대해 단일 통합 대규모 언어 모델(Unified Large Language Model; LLM)을 학습시키는 형태입니다. 이는 각 에이전트마다 기저에 깔린 데이터 분포가 서로 다르기 때문에 성능의 한계를 초래할 수 있습니다. 따라서 개별적인 LLM을 사용하여 다중 에이전트 시스템을 훈련하는 것이 해결해야 할 차세대 과제입니다.그러나 이러한 접근 방식은 최적화와 관련된 새로운 난제들을 야기합니다. 예를 들어, 에이전트들이 서로 다른 빈도로 작동하거나, 롤아웃(Rollout) 과정에서 하위 에이전트(Sub-agent) 호출 횟수가 가변적이며, 에이전트들이 물리적으로 분리된 서버에 배포되는 경우가 많아 엔드투엔드 그라디언트 흐름(End-to-end Gradient Flow)이 단절될 수 있습니다.이러한 문제를 해결하기 위해, 본 연구에서는 메인 에이전트(계획자, Planner)와 다수의 하위 에이전트(멀티턴 도구 실행자, Multi-turn Tool Executor)로 구성된 수직적 다중 에이전트 시스템을 위해 설계된 그룹 상대 정책 최적화(Group Relative Policy Optimization; GRPO)의 계층적 확장 모델인 M-GRPO를 제안합니다. M-GRPO는 메인 에이전트와 하위 에이전트 모두에 대해 그룹 상대 어드밴티지(Group-Relative Advantage)를 계산함으로써 계층적 기여도 할당(Credit Assignment)을 유지합니다. 또한 하위 에이전트의 호출 횟수가 가변적임에도 불구하고 고정된 크기의 배치(Batch)를 생성할 수 있는 궤적 정렬(Trajectory-Alignment) 기법을 도입했습니다.우리는 에이전트들이 개별 서버에서 구동되며 공유 저장소를 통해 최소한의 통계 정보만을 교환하는 비결합(Decoupled) 훈련 파이프라인을 구축했습니다. 이를 통해 서버 간 역전파(Backpropagation) 과정 없이도 확장 가능한 훈련이 가능해집니다. 실제 환경 벤치마크(GAIA, XBench-DeepSearch, WebWalkerQA 등)를 통한 실험 결과, M-GRPO는 단일 에이전트 GRPO 및 하위 에이전트를 고정(Freeze)한 상태의 다중 에이전트 GRPO보다 일관되게 우수한 성능을 보였으며, 향상된 안정성과 샘플 효율성을 입증했습니다. 이러한 결과는 이질적인(Heterogeneous) 궤적을 정렬하고 전문화된 에이전트 간의 최적화를 분리하는 것이 도구 증강(Tool-Augmented) 추론 작업의 성능을 향상시킨다는 점을 시사합니다.

Multi-Agent 심층 연구: M-GRPO를 활용한 Multi-Agent 시스템 학습

Haoyang Hong Jiajun Yin Yuan Wang Jingnan Liu Zhe Chen Ailing Yu Ji Li Zhiling Ye Hansong Xiao Yefei Chen

초록

AI로 AI 구축

Hyper Newsletters

Command Palette

Multi-Agent 심층 연구: M-GRPO를 활용한 Multi-Agent 시스템 학습

Haoyang Hong Jiajun Yin Yuan Wang Jingnan Liu Zhe Chen Ailing Yu Ji Li Zhiling Ye Hansong Xiao Yefei Chen7 more

초록

AI로 AI 구축

Hyper Newsletters

Haoyang Hong Jiajun Yin Yuan Wang Jingnan Liu Zhe Chen Ailing Yu Ji Li Zhiling Ye Hansong Xiao Yefei Chen