HyperAIHyperAI
vor 11 Tagen

Llemma: Ein offenes Sprachmodell für Mathematik

Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
Llemma: Ein offenes Sprachmodell für Mathematik
Abstract

Wir stellen Llemma vor, ein großes Sprachmodell für Mathematik. Wir erweitern das Pretraining von Code Llama auf der Proof-Pile-2, einer Mischung aus wissenschaftlichen Arbeiten, webbasierten Daten mit mathematischem Inhalt sowie mathematischem Code, wodurch Llemma entsteht. Auf der MATH-Benchmark-Aufgabe übertrifft Llemma alle bekannten offenen Basismodelle sowie die noch nicht veröffentlichte Minerva-Modellreihe bei vergleichbarer Parameteranzahl. Darüber hinaus ist Llemma in der Lage, Werkzeuge zu nutzen und formale Theorembeweise zu führen, ohne dass eine zusätzliche Feinabstimmung erforderlich ist. Wir stellen alle Artefakte öffentlich zur Verfügung, darunter Modelle mit jeweils 7 Milliarden und 34 Milliarden Parametern, die Proof-Pile-2 sowie den Code zur Reproduktion unserer Experimente.

Llemma: Ein offenes Sprachmodell für Mathematik | Neueste Forschungsarbeiten | HyperAI