Command Palette
Search for a command to run...

초록
복잡한 실세계 과제를 해결하기 위해 일련의 지능적 결정을 내릴 수 있는 자율적 대규모 언어모델(LLM) 에이전트 개발은 빠르게 진전되고 있는 최전선 분야이다. 인간의 인지 발달과 마찬가지로, 이러한 에이전트는 환경과의 탐색 및 상호작용을 통해 지식과 기술을 습득할 것으로 기대된다. 비록 최근 기술이 발전했지만, 여전히 다양한 실세계 환경에서 감독형 미세조정(SFT)에 의존하지 않고, 처음부터 효과적으로 에이전트를 훈련시킬 수 있는 통합적이고 상호작용 가능한 강화학습(RL) 프레임워크는 부족한 실정이다. 이 격차를 메우기 위해, 우리는 다단계 상호작용 의사결정을 위한 LLM 에이전트를 RL을 통해 훈련할 수 있는 새로운 프레임워크인 AgentGym-RL을 제안한다. 이 프레임워크는 모듈화되고 분리된 아키텍처를 특징으로 하여 높은 유연성과 확장성을 보장한다. 다양한 실제 세계 시나리오를 포괄하며, 주류 강화학습 알고리즘을 모두 지원한다. 더불어, 탐색과 활용 사이의 균형을 유지하고 안정적인 RL 최적화를 달성하기 위해 ScalingInter-RL이라는 새로운 훈련 방식을 제안한다. 초기 단계에서는 상호작용 횟수를 제한함으로써 활용을 강조하고, 이후 수렴 폭을 점차 확대하여 탐색을 증진함으로써 다양한 문제 해결 전략을 유도한다. 이를 통해 에이전트는 더 다양한 행동 양식을 발전시키며, 장기적인 시퀀스에서의 붕괴 위험도 감소한다. 우리는 AgentGym-RL 프레임워크와 ScalingInter-RL 방식의 안정성과 효과성을 검증하기 위해 광범위한 실험을 수행하였다. 실험 결과, 우리의 에이전트는 다양한 환경에서 27개의 과제에서 상용 모델과 동등하거나 이를 초월하는 성능을 나타냈다. 본 연구는 핵심 통찰을 제공하며, 코드와 데이터셋을 포함한 완전한 AgentGym-RL 프레임워크를 오픈소스로 공개함으로써, 차세대 지능형 에이전트 개발을 위한 연구 공동체의 역량을 강화할 것이다.