Command Palette
Search for a command to run...
Kai Zhang Xiangchao Chen Bo Liu Tianci Xue Zeyi Liao et al

초록
언어 에이전트의 장기적인 목표 중 하나는 자신의 경험을 통해 학습하고 지속적으로 개선하여, 복잡한 실세계 과제에서 인간을 능가하는 것에 있다. 그러나 강화학습을 통해 경험 데이터로부터 에이전트를 훈련시키는 것은 여전히 많은 환경에서 어려운 과제이다. 특히 보상이 검증 가능한 환경(예: 웹사이트)이 없거나, 다단계 도구 사용과 같은 경우처럼 비효율적인 장기적 롤아웃이 필요할 때는 더욱 그렇다. 그 결과, 현재 대부분의 에이전트는 전문가 데이터를 기반으로 한 지도적 미세조정(supervised fine-tuning)에 의존하고 있으나, 이는 확장성에 어려움이 있으며 일반화 성능이 낮다. 이러한 한계는 전문가의 시연 데이터 자체의 본질에 기인한다. 즉, 이 데이터는 매우 제한된 시나리오만을 포착하고, 에이전트가 경험할 수 있는 환경의 다양성도 제한적이기 때문이다.이 문제를 해결하기 위해 우리는 ‘조기 경험(early experience)’이라는 중간 접근 방식을 제안한다. 이는 에이전트가 자신의 행동을 통해 생성한 상호작용 데이터를 의미하며, 보상 신호 없이도 그로 인해 발생한 미래 상태(state)가 학습의 지시 신호로 활용될 수 있다. 이 프레임워크 내에서 우리는 이러한 데이터를 활용하는 두 가지 전략을 탐구한다. 첫째, 암묵적 세계 모델링(implicit world modeling): 수집된 상태 데이터를 활용해 정책(policy)을 환경의 동역학에 기반하게 한다. 둘째, 자기 반성(self-reflection): 에이전트가 비최적의 행동을 통해 학습하여 추론과 의사결정 능력을 향상시킨다.우리는 여덟 가지 다양한 환경과 여러 모델 패밀리에서 실험을 수행하여 평가하였으며, 제안한 방법들은 일관되게 효과성과 도메인 외 일반화 능력을 향상시켰다. 이는 조기 경험의 가치가 높다는 것을 시사한다. 더 나아가, 보상이 검증 가능한 환경에서는 조기 경험을 통해 후속 강화학습에 강력한 기반을 마련할 수 있다는 유망한 신호를 제공한다. 즉, 조기 경험은 단순한 모방학습(imitation learning)과 완전히 경험 중심의 에이전트 사이를 현실적으로 연결해주는 실용적인 다리 역할을 할 수 있음을 시사한다.