HyperAIHyperAI

Command Palette

Search for a command to run...

Llemma : un modèle linguistique ouvert pour les mathématiques

Zhangir Azerbayev Hailey Schoelkopf Keiran Paster Marco Dos Santos Stephen McAleer Albert Q. Jiang Jia Deng Stella Biderman Sean Welleck

Résumé

Nous présentons Llemma, un grand modèle linguistique dédié aux mathématiques. Nous poursuivons l'entraînement préalable de Code Llama sur Proof-Pile-2, un ensemble combiné d'articles scientifiques, de données issues du web contenant des mathématiques et de code mathématique, ce qui donne naissance à Llemma. Sur le benchmark MATH, Llemma surpasser tous les modèles de base open-source connus, ainsi que la suite de modèles Minerva non encore publiée, sur une base équivalente en nombre de paramètres. En outre, Llemma est capable d'utiliser des outils et de réaliser des preuves formelles de théorèmes sans nécessiter de fine-tuning supplémentaire. Nous mettons publiquement à disposition tous les artefacts, y compris les modèles de 7 milliards et 34 milliards de paramètres, Proof-Pile-2, ainsi que le code permettant de reproduire nos expériences.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp