GPT-4 코드 인터프리터를 활용한 코드 기반 자기 검증을 통한 어려운 수학 문장 문제 해결

최근 GPT-4 및 PaLM-2와 같은 대규모 언어 모델(Large Language Models, LLMs)의 발전은 수학적 추론 문제 해결에 있어 중요한 진전을 이끌어냈다. 특히 오픈AI의 최신 버전인 GPT-4 Code Interpreter는 도전적인 수학 데이터셋에서 뛰어난 성능을 보이고 있다. 본 논문에서는 GPT-4 Code Interpreter의 코드 사용 빈도(\textit{Code Usage Frequency})에 다양한 제약 조건을 도입함으로써, 코드가 LLM의 추론 능력 향상에 미치는 영향을 탐구한다. 그 결과, 이 모델의 성공은 코드 생성 및 실행 능력, 코드 실행 결과 평가 능력, 그리고 불합리한 출력을 받았을 때 해결책을 수정할 수 있는 능력에 크게 기인함을 발견하였다. 이러한 통찰을 바탕으로, GPT-4 Code Interpreter의 수학적 추론 능력을 더욱 강화하기 위한 새로운 효과적인 프롬프팅 방법인 명시적 \uline{c}ode 기반 \uline{s}elf-\uline{v}erification (CSV)을 제안한다. 본 방법은 GPT-4 Code Interpreter에 대해 제로샷 프롬프트를 활용하여, 자체적으로 답변을 코드를 통해 검증하도록 유도한다. 검증 결과가 "False"로 나타날 경우, 모델은 자동으로 자신의 해결책을 수정하며, 이는 수학 시험에서 오류를 수정하는 우리의 접근 방식과 유사하다. 더불어, 검증 결과의 상태가 해결책에 대한 신뢰도를 나타낸다는 점을 인지하고, 이를 다수결 투표의 효율성 향상에 활용한다. GPT-4 Code Interpreter와 CSV를 결합함으로써, MATH 데이터셋에서 제로샷 정확도를 \textbf{(53.9\% $\to$ 84.3\%)}로 크게 향상시켰다.