Command Palette
Search for a command to run...

초록
다음은 요청하신 텍스트의 한국어 번역입니다. 기술적 정확성과 학술적 문체를 고려하여 번역하였습니다.다중 에이전트 시스템(Multi-agent Systems)은 일반적인 추론 작업에서 우수한 성능을 발휘합니다. 그러나 특정 전문 영역에 대한 학습 부족은 시스템의 정확도를 저해하는 요인이 됩니다. 현재의 훈련 방식은 시스템 내 모든 에이전트에 대해 단일 통합 대규모 언어 모델(Unified Large Language Model; LLM)을 학습시키는 형태입니다. 이는 각 에이전트마다 기저에 깔린 데이터 분포가 서로 다르기 때문에 성능의 한계를 초래할 수 있습니다. 따라서 개별적인 LLM을 사용하여 다중 에이전트 시스템을 훈련하는 것이 해결해야 할 차세대 과제입니다.그러나 이러한 접근 방식은 최적화와 관련된 새로운 난제들을 야기합니다. 예를 들어, 에이전트들이 서로 다른 빈도로 작동하거나, 롤아웃(Rollout) 과정에서 하위 에이전트(Sub-agent) 호출 횟수가 가변적이며, 에이전트들이 물리적으로 분리된 서버에 배포되는 경우가 많아 엔드투엔드 그라디언트 흐름(End-to-end Gradient Flow)이 단절될 수 있습니다.이러한 문제를 해결하기 위해, 본 연구에서는 메인 에이전트(계획자, Planner)와 다수의 하위 에이전트(멀티턴 도구 실행자, Multi-turn Tool Executor)로 구성된 수직적 다중 에이전트 시스템을 위해 설계된 그룹 상대 정책 최적화(Group Relative Policy Optimization; GRPO)의 계층적 확장 모델인 M-GRPO를 제안합니다. M-GRPO는 메인 에이전트와 하위 에이전트 모두에 대해 그룹 상대 어드밴티지(Group-Relative Advantage)를 계산함으로써 계층적 기여도 할당(Credit Assignment)을 유지합니다. 또한 하위 에이전트의 호출 횟수가 가변적임에도 불구하고 고정된 크기의 배치(Batch)를 생성할 수 있는 궤적 정렬(Trajectory-Alignment) 기법을 도입했습니다.우리는 에이전트들이 개별 서버에서 구동되며 공유 저장소를 통해 최소한의 통계 정보만을 교환하는 비결합(Decoupled) 훈련 파이프라인을 구축했습니다. 이를 통해 서버 간 역전파(Backpropagation) 과정 없이도 확장 가능한 훈련이 가능해집니다. 실제 환경 벤치마크(GAIA, XBench-DeepSearch, WebWalkerQA 등)를 통한 실험 결과, M-GRPO는 단일 에이전트 GRPO 및 하위 에이전트를 고정(Freeze)한 상태의 다중 에이전트 GRPO보다 일관되게 우수한 성능을 보였으며, 향상된 안정성과 샘플 효율성을 입증했습니다. 이러한 결과는 이질적인(Heterogeneous) 궤적을 정렬하고 전문화된 에이전트 간의 최적화를 분리하는 것이 도구 증강(Tool-Augmented) 추론 작업의 성능을 향상시킨다는 점을 시사합니다.