HyperAIHyperAI
il y a 16 jours

Llemma : un modèle linguistique ouvert pour les mathématiques

Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
Llemma : un modèle linguistique ouvert pour les mathématiques
Résumé

Nous présentons Llemma, un grand modèle linguistique dédié aux mathématiques. Nous poursuivons l'entraînement préalable de Code Llama sur Proof-Pile-2, un ensemble combiné d'articles scientifiques, de données issues du web contenant des mathématiques et de code mathématique, ce qui donne naissance à Llemma. Sur le benchmark MATH, Llemma surpasser tous les modèles de base open-source connus, ainsi que la suite de modèles Minerva non encore publiée, sur une base équivalente en nombre de paramètres. En outre, Llemma est capable d'utiliser des outils et de réaliser des preuves formelles de théorèmes sans nécessiter de fine-tuning supplémentaire. Nous mettons publiquement à disposition tous les artefacts, y compris les modèles de 7 milliards et 34 milliards de paramètres, Proof-Pile-2, ainsi que le code permettant de reproduire nos expériences.

Llemma : un modèle linguistique ouvert pour les mathématiques | Articles de recherche récents | HyperAI