HyperAI초신경

테스트 시간 계산 확장 for LLM 에이전트

King Zhu, Hanhao Li, Siwei Wu, Tianshun Xing, Dehua Ma, Xiangru Tang, Minghao Liu, Jian Yang, Jiaheng Liu, Yuchen Eleanor Jiang, Changwang Zhang, Chenghua Lin, Jun Wang, Ge Zhang, Wangchunshu Zhou
발행일: 6/18/2025
테스트 시간 계산 확장 for LLM 에이전트
초록

테스트 시간 컴퓨팅 확장을 통해 대형 언어 모델(LLMs)의 추론 능력이 크게 향상되는 것을 확인할 수 있었습니다. 본 연구에서는 테스트 시간 확장 방법을 언어 에이전트에 적용하는 첫 번째 체계적인 탐색을 수행하고, 이 방법이 에이전트의 효과성을 어느 정도 개선하는지 조사합니다. 구체적으로 다음과 같은 다양한 테스트 시간 확장 전략을 탐구합니다: (1) 병렬 샘플링 알고리즘; (2) 순차적 수정 전략; (3) 검증기 및 통합 방법; (4) 롤아웃 다양화 전략. 우리는 이러한 설계 전략들이 언어 에이전트에 테스트 시간 확장을 적용할 때 미치는 영향을 면밀히 분석하고, 다음과 같은 결과를 도출하였습니다: 1. 테스트 시간 컴퓨팅 확장은 에이전트의 성능을 개선할 수 있습니다. 2. 언제 반성해야 하는지를 아는 것이 에이전트에게 중요합니다. 3. 다양한 검증 및 결과 통합 접근법 중 리스트-와이즈(list-wise) 방법이 가장 우수한 성능을 보입니다. 4. 다양화된 롤아웃 증가는 에이전트의 작업 성능에 긍정적인 영향을 미칩니다.