11일 전

이론적 추론을 위한 대규모 언어 모델을 활용한 자동 모델 선택

James Xu Zhao, Yuxi Xie, Kenji Kawaguchi, Junxian He, Michael Qizhe Xie
이론적 추론을 위한 대규모 언어 모델을 활용한 자동 모델 선택
초록

Chain-of-Thought (CoT)와 Program-Aided Language Models (PAL)는 각각 고유한 강점과 함께 서로 다른 추론 방법을 대표한다. CoT는 자연어를 활용하여 유연성과 해석 가능성에优势를 지닌 반면, PAL은 프로그래밍 언어를 사용함으로써 보다 구조적이고 엄격한 논리를 제공한다. 본 연구에서는 대규모 언어 모델(LLM)을 활용하여 동적으로 두 방법 중 적절한 것을 선택함으로써 이 둘의 장점을 결합하는 모델 선택 기법을 제안한다. 이 방법의 타당성은 이론적 분석을 통해 입증되었으며, 실증적 결과 또한 이를 뒷받침한다. 제안한 방법은 Codex, ChatGPT, GPT-4를 사용하여 8개의 추론 데이터셋에서 뚜렷한 성능 향상을 보였다. 또한, 자기 일관성(self-consistency) 기법과의 조합이 가능하며, 이 경우 성능은 더욱 향상되면서 계산 비용은 크게 절감된다. 더불어, GSM8K와 SVAMP에서 각각 96.8%, 93.7%의 정확도를 기록하며 새로운 최고 성능(SOTA)을 달성하였다. 본 연구의 코드, 데이터 및 프롬프트는 https://github.com/XuZhao0/Model-Selection-Reasoning 에 공개되어 있다.

이론적 추론을 위한 대규모 언어 모델을 활용한 자동 모델 선택 | 최신 연구 논문 | HyperAI초신경