11일 전

Llemma: 수학을 위한 오픈 소스 언어 모델

Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
Llemma: 수학을 위한 오픈 소스 언어 모델
초록

우리는 수학을 위한 대규모 언어 모델인 Llemma를 제안한다. 우리는 Proof-Pile-2라는 데이터셋을 기반으로 Code Llama를 추가 사전 훈련하였으며, 이로 인해 Llemma가 탄생하였다. Proof-Pile-2는 과학 논문, 수학을 포함한 웹 데이터, 수학적 코드가 혼합된 데이터셋이다. MATH 벤치마크에서 Llemma는 모든 알려진 오픈 소스 기반 모델과, 파라미터 수가 동일한 조건에서 비교할 때 공개되지 않은 Minerva 모델 세트를 모두 능가한다. 더불어 Llemma는 추가적인 미세조정 없이도 도구 사용 및 형식적 정리 증명이 가능하다. 우리는 모든 연구 자산을 공개하며, 70억 및 340억 파라미터 모델, Proof-Pile-2 데이터셋, 실험 재현을 위한 코드를 포함하여 모두 공개한다.

Llemma: 수학을 위한 오픈 소스 언어 모델 | 최신 연구 논문 | HyperAI초신경