15일 전
ReST가 ReAct을 만난다: 다단계 추론 LLM 에이전트를 위한 자기 개선
Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar

초록
복잡한 자연어 질문에 답하기 위해서는 다단계 추론과 외부 정보의 통합이 종종 필요하다. 여러 시스템이 이러한 질문에 답하기 위해 지식 검색 기능과 대규모 언어 모델(LLM)을 결합해왔다. 그러나 이러한 시스템은 다양한 실패 사례를 겪으며, 외부 지식과의 상호작용이 미분 불가능하기 때문에 이러한 문제를 직접적으로 엔드투엔드(end-to-end)로 학습하여 해결할 수 없다. 이러한 한계를 보완하기 위해, 외부 지식에 대해 추론하고 행동할 수 있는 ReAct 스타일의 LLM 에이전트를 정의한다. 더불어, 이전 탐색 경로에 대해 반복적으로 학습하는 ReST 유사 방법을 통해 에이전트를 보완하며, AI 피드백을 활용한 성장하는 배치 강화학습(growing-batch reinforcement learning)을 통해 지속적인 자기 개선과 자기 정제(self-distillation)를 실현한다. 초기에 프롬프트 기반의 대규모 모델로부터 시작하여 알고리즘을 단 두 번 반복한 후, 파라미터 수가 두 자릿수 감소한 작은 모델을 미세 조정할 수 있으며, 이는 복합 질문-응답 벤치마크에서 뛰어난 성능을 달성할 수 있다.