HyperAIHyperAI

Command Palette

Search for a command to run...

Llemma:数学向けオープン言語モデル

Zhangir Azerbayev Hailey Schoelkopf Keiran Paster Marco Dos Santos Stephen McAleer Albert Q. Jiang Jia Deng Stella Biderman Sean Welleck

概要

本稿では、数学向けの大規模言語モデル「Llemma」を紹介する。我々は、科学論文、数学を含むウェブデータ、数学コードの混合データセットである「Proof-Pile-2」上でCode Llamaを継続的に事前学習することで、Llemmaを構築した。MATHベンチマークにおいて、Llemmaは既知のすべてのオープンベースモデル、およびパラメータ数と同等の条件下での非公開モデルであるMinervaシリーズを上回る性能を発揮した。さらに、追加の微調整を施さずに、ツール利用および形式的定理証明の能力を有している。本研究では、70億および340億パラメータのモデル、Proof-Pile-2データセット、および実験の再現に必要なコードを含むすべてのアーティファクトを公開する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Llemma:数学向けオープン言語モデル | 記事 | HyperAI超神経