언어 에이전트 트리 탐색: 언어 모델에서 추론, 행동 및 계획을 통합한다

언어 모델(LM)은 다양한 의사결정 과제에서 잠재력을 보여주었지만, 단순한 행동 처리 방식에 의존함으로써 자율 에이전트로서의 광범위한 도입이 제한되고 있다. 본 논문에서는 추론, 행동, 계획 능력을 유기적으로 통합할 수 있는 최초의 일반적 프레임워크인 언어 에이전트 트리 탐색(LATS)을 제안한다. LMs의 맥락 내 학습 능력을 활용하여, LATS는 몬테카를로 트리 탐색(Monte Carlo Tree Search)을 통합함으로써 LMs를 에이전트로 활용할 수 있도록 하며, LM 기반의 가치 함수와 자기 반성(self-reflection)을 통해 효과적인 탐색과 향상된 의사결정을 가능하게 한다. 본 연구의 핵심 특징은 외부 피드백을 제공하는 환경을 도입한 점으로, 기존 기술의 제약을 넘어서 보다 신중하고 적응 가능한 문제 해결 메커니즘을 제공한다. 프로그래밍, 상호작용형 질문-답변(QA), 웹 탐색, 수학 등 다양한 영역에서 수행된 실험 평가를 통해 LATS가 의사결정 능력에서 뛰어난 효과성과 일반화 능력을 입증하였으며, 경쟁력 있거나 향상된 추론 성능을 유지함을 확인하였다. 특히, GPT-4를 사용하여 HumanEval에서 프로그래밍 과제에 대해 최신 기준(SOTA)의 pass@1 정확도(92.7%)를 달성하였으며, GPT-3.5를 활용한 WebShop 웹 탐색 과제에서는 기울기 기반 미세조정과 비교해도 유사한 성능(평균 점수 75.9)을 기록하며 기울기 없는(gradient-free) 접근 방식의 가능성을 입증하였다. 코드는 https://github.com/lapisrocks/LanguageAgentTreeSearch 에서 확인할 수 있다.