3달 전

AlphaMath 거의 제로: 프로세스 없이 프로세스 감독

Guoxin Chen, Minpeng Liao, Chengxi Li, Kai Fan
AlphaMath 거의 제로: 프로세스 없이 프로세스 감독
초록

최근 대규모 언어 모델(LLM)의 발전은 다양한 작업에서 성능을 크게 향상시켰지만, 특히 수학적 추론과 같은 복잡하고 기호적인 다단계 추론 과제에서는 여전히 도전 과제에 직면해 있다. LLM의 수학적 추론 능력을 강화하기 위해 기존 대부분의 연구는 고도의 과정 감독 데이터를 확보하기 위해 도메인 전문가나 GPT-4와 같은 모델의 도움을 받는 데 집중해 왔다. 그러나 이러한 접근은 비용이 매우 높고 인력 집약적인 과정을 수반한다. 본 연구에서는 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 활용함으로써 인간 또는 GPT로부터의 과정 주석(annotation)이 필요 없도록 하는 혁신적인 프레임워크인 AlphaMath을 제안한다. 이 프레임워크는 잘 사전 훈련된 LLM이 자율적으로 수학적 추론 능력을 향상시킬 잠재력을 극대화하는 데 초점을 맞춘다. 구체적으로, LLM에 가치 모델(value model)을 통합하여 MCTS 내에서 과정 감독 데이터와 단계별 평가 신호를 자동으로 생성한다. 또한, 효율적인 추론 전략으로 단계별 범 브리드 검색(step-level beam search)을 제안하며, 이는 사전 확률에만 의존하는 것이 아니라, 가치 모델이 정책 모델(즉, LLM)이 더 효과적인 추론 경로를 탐색하도록 돕는 방식으로 설계된다. 도메인 내 및 도메인 외 데이터셋에 대한 실험 결과는, GPT-4나 인간이 주석한 과정 데이터 없이도 AlphaMath 프레임워크가 이전 최고 수준의 방법들과 비교해 유사하거나 더 우수한 성능을 달성함을 보여준다.