TheoremQA: 정리 기반 질문 응답 데이터셋

최근의 대형 언어 모델(LLM)인 GPT-4와 PaLM-2는 GSM8K와 같은 기본 수학 문제를 해결하는 데서 90% 이상의 정확도를 달성하며 큰 진전을 이뤘습니다. 그러나 이러한 모델들이 특정 영역 지식(즉, 정리)이 필요한 더 어려운 수학 문제를 해결하는 능력은 아직 조사되지 않았습니다. 본 논문에서는 AI 모델들의 정리를 활용하여 어려운 과학 문제를 해결하는 능력을 평가하기 위해 설계된 첫 번째 정리 기반 질문-답변 데이터셋인 TheoremQA를 소개합니다. TheoremQA는 수학, 물리학, 전기전자 및 컴퓨터 공학(EE&CS), 금융 등 다양한 분야에서 350개의 정리(예: 테일러 정리, 라그랑주 정리, 허프만 코딩, 양자정리, 탄성정리 등)를 포함한 800개의 고품질 질문으로 구성되어 있습니다. 우리는 사고의 연쇄(Chain-of-Thoughts)와 프로그램의 사고(Program-of-Thoughts) 등의 다양한 프롬프팅 전략을 사용하여 16개의 대형 언어 및 코드 모델을 폭넓게 평가했습니다. 그 결과 GPT-4는 프로그램의 사고 프롬프팅을 통해 51%의 정확도를 달성하며 이 문제들을 해결하는 능력이 독보적임을 확인했습니다. 현재까지 오픈 소스화된 모든 모델들은 무작위 추측 베이스라인을 간신히 넘는 15% 미만의 성능을 보였습니다. TheoremQA의 다양성과 광범위한 커버리지를 고려할 때, 우리는 이를 더 나은 벤치마크로 사용하여 LLM들이 어려운 과학 문제를 해결하는 능력을 평가할 수 있다고 믿습니다. 데이터와 코드는 https://github.com/wenhuchen/TheoremQA 에서 제공됩니다.