17일 전

스텝 인식 검증기를 활용한 대규모 언어 모델의 추론 능력 향상

Yifei Li, Zeqi Lin, Shizhuo Zhang, Qiang Fu, Bei Chen, Jian-Guang Lou, Weizhu Chen
스텝 인식 검증기를 활용한 대규모 언어 모델의 추론 능력 향상
초록

소수 예시 학습(few-shot learning)은 언어 모델이 제한된 예시로부터 일반화해야 하는 도전적인 과제이다. GPT-3 및 PaLM과 같은 대규모 언어 모델은 이 분야에서 인상적인 진전을 이루었지만, 산술 문제를 평가하는 벤치마크인 GSM8K와 같은 추론 과제에서는 여전히 어려움을 겪고 있다. 이를 개선하기 위해 기존 연구들은 최종 답변을 제시하기 전에 여러 추론 단계를 유도하는 프롬프트를 언어 모델에 제시함으로써 성능을 크게 향상시켰으며, GSM8K에서 문제 해결률을 17.9%에서 58.1%로 끌어올렸다. 본 논문에서는 언어 모델의 추론 능력을 더욱 향상시키는 새로운 접근법인 DIVERSE(Diverse Verifier on Reasoning Step)를 제안한다. DIVERSE는 세 가지 주요 구성 요소로 이루어져 있다. 첫째, 동일한 질문에 대해 다양한 추론 경로를 탐색하기 위해 다양한 프롬프트를 생성한다. 둘째, 가중치 투표 방식을 기반으로 잘못된 답변을 필터링하는 검증기(Verifier)를 사용한다. 셋째, 전체 추론 체인을 검증하는 대신 각 추론 단계를 개별적으로 검증한다. 우리는 최신 언어 모델인 code-davinci-002를 대상으로 DIVERSE를 평가하여, 여덟 개의 추론 벤치마크 중 여섯 개에서 새로운 최고 성능을 달성함을 확인하였다(예: GSM8K에서 74.4%에서 83.2%로 향상).

스텝 인식 검증기를 활용한 대규모 언어 모델의 추론 능력 향상 | 최신 연구 논문 | HyperAI초신경