11日前

Llemma:数学向けオープン言語モデル

Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
Llemma:数学向けオープン言語モデル
要約

本稿では、数学向けの大規模言語モデル「Llemma」を紹介する。我々は、科学論文、数学を含むウェブデータ、数学コードの混合データセットである「Proof-Pile-2」上でCode Llamaを継続的に事前学習することで、Llemmaを構築した。MATHベンチマークにおいて、Llemmaは既知のすべてのオープンベースモデル、およびパラメータ数と同等の条件下での非公開モデルであるMinervaシリーズを上回る性能を発揮した。さらに、追加の微調整を施さずに、ツール利用および形式的定理証明の能力を有している。本研究では、70億および340億パラメータのモデル、Proof-Pile-2データセット、および実験の再現に必要なコードを含むすべてのアーティファクトを公開する。

Llemma:数学向けオープン言語モデル | 最新論文 | HyperAI超神経