HyperAI超神経

概要

本稿では、数学向けの大規模言語モデル「Llemma」を紹介する。我々は、科学論文、数学を含むウェブデータ、数学コードの混合データセットである「Proof-Pile-2」上でCode Llamaを継続的に事前学習することで、Llemmaを構築した。MATHベンチマークにおいて、Llemmaは既知のすべてのオープンベースモデル、およびパラメータ数と同等の条件下での非公開モデルであるMinervaシリーズを上回る性能を発揮した。さらに、追加の微調整を施さずに、ツール利用および形式的定理証明の能力を有している。本研究では、70億および340億パラメータのモデル、Proof-Pile-2データセット、および実験の再現に必要なコードを含むすべてのアーティファクトを公開する。

概要

Zhangir Azerbayev Hailey Schoelkopf Keiran Paster Marco Dos Santos Stephen McAleer Albert Q. Jiang Jia Deng Stella Biderman Sean Welleck

概要

AIでAIを構築

HyperAI Newsletters

Zhangir Azerbayev Hailey Schoelkopf Keiran Paster Marco Dos Santos Stephen McAleer Albert Q. Jiang Jia Deng Stella Biderman Sean Welleck

概要

AIでAIを構築

HyperAI Newsletters

Zhangir Azerbayev Hailey Schoelkopf Keiran Paster Marco Dos Santos Stephen McAleer Albert Q. Jiang Jia Deng Stella Biderman Sean Welleck

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

Llemma：数学向けオープン言語モデル

Zhangir Azerbayev Hailey Schoelkopf Keiran Paster Marco Dos Santos Stephen McAleer Albert Q. Jiang Jia Deng Stella Biderman Sean Welleck

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

Llemma：数学向けオープン言語モデル

Zhangir Azerbayev Hailey Schoelkopf Keiran Paster Marco Dos Santos Stephen McAleer Albert Q. Jiang Jia Deng Stella Biderman Sean Welleck

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

Llemma：数学向けオープン言語モデル

Zhangir Azerbayev Hailey Schoelkopf Keiran Paster Marco Dos Santos Stephen McAleer Albert Q. Jiang Jia Deng Stella Biderman Sean Welleck

概要

AIでAIを構築

HyperAI Newsletters