ReAct: 언어 모델에서 추론과 행동의 융합

대규모 언어 모델(Large Language Models, LLMs)은 언어 이해 및 상호작용 기반 의사결정과 같은 다양한 과제에서 놀라운 능력을 보여주었으나, 추론(예: 체인 오브 써드 체인 체인-오브-스스로 추론)과 행동(예: 행동 계획 생성) 능력은 주로 별개의 주제로 연구되어 왔다. 본 논문에서는 LLM을 활용하여 추론 흐름과 과제 특화 행동을 교차적으로 생성하는 방식을 탐구한다. 이를 통해 두 요소 간의 상호보완적 상호작용을 극대화한다. 즉, 추론 흐름은 모델이 행동 계획을 유도하고 추적하며 업데이트하는 데 도움을 주며, 예외 상황을 처리하는 데에도 기여한다. 반면, 행동은 모델이 지식 기반 시스템이나 환경과 같은 외부 소스와 상호작용하여 추가 정보를 수집할 수 있도록 한다. 본 연구에서 제안하는 방법론인 ReAct는 다양한 언어 처리 및 의사결정 과제에 적용되었으며, 최신 기준(SOTA) 모델들과 비교해 뛰어난 성능을 입증하였다. 또한, 추론 또는 행동 요소가 없는 기존 방법보다 인간이 이해하기 쉬우며 신뢰할 수 있는 결과를 제공한다. 구체적으로, 질문 응답(HeatpotQA) 및 사실 검증(Fever) 과제에서 ReAct는 단순한 위키백과 API와의 상호작용을 통해 체인 오브 써드 추론에서 흔히 발생하는 환각 현상과 오류 전파 문제를 해결하였으며, 인간의 사고 흐름과 유사한 과제 해결 경로를 생성하여 추론 흐름이 없는 기준 모델보다 훨씬 더 해석 가능하다. 두 개의 인터랙티브 의사결정 벤치마크(ALFWorld 및 WebShop)에서 ReAct는 이미테이션 학습 및 강화 학습 기법보다 각각 34%, 10%의 절대 성공률 향상을 달성하였으며, 컨텍스트 내 예시 하나 또는 두 개만을 사용하여 프롬프트를 구성하였다. 프로젝트 사이트 및 코드: https://react-lm.github.io