Llemma : un modèle linguistique ouvert pour les mathématiques

Nous présentons Llemma, un grand modèle linguistique dédié aux mathématiques. Nous poursuivons l'entraînement préalable de Code Llama sur Proof-Pile-2, un ensemble combiné d'articles scientifiques, de données issues du web contenant des mathématiques et de code mathématique, ce qui donne naissance à Llemma. Sur le benchmark MATH, Llemma surpasser tous les modèles de base open-source connus, ainsi que la suite de modèles Minerva non encore publiée, sur une base équivalente en nombre de paramètres. En outre, Llemma est capable d'utiliser des outils et de réaliser des preuves formelles de théorèmes sans nécessiter de fine-tuning supplémentaire. Nous mettons publiquement à disposition tous les artefacts, y compris les modèles de 7 milliards et 34 milliards de paramètres, Proof-Pile-2, ainsi que le code permettant de reproduire nos expériences.