HyperAIHyperAI

Command Palette

Search for a command to run...

Llemma: Ein offenes Sprachmodell für Mathematik

Zhangir Azerbayev Hailey Schoelkopf Keiran Paster Marco Dos Santos Stephen McAleer Albert Q. Jiang Jia Deng Stella Biderman Sean Welleck

Zusammenfassung

Wir stellen Llemma vor, ein großes Sprachmodell für Mathematik. Wir erweitern das Pretraining von Code Llama auf der Proof-Pile-2, einer Mischung aus wissenschaftlichen Arbeiten, webbasierten Daten mit mathematischem Inhalt sowie mathematischem Code, wodurch Llemma entsteht. Auf der MATH-Benchmark-Aufgabe übertrifft Llemma alle bekannten offenen Basismodelle sowie die noch nicht veröffentlichte Minerva-Modellreihe bei vergleichbarer Parameteranzahl. Darüber hinaus ist Llemma in der Lage, Werkzeuge zu nutzen und formale Theorembeweise zu führen, ohne dass eine zusätzliche Feinabstimmung erforderlich ist. Wir stellen alle Artefakte öffentlich zur Verfügung, darunter Modelle mit jeweils 7 Milliarden und 34 Milliarden Parametern, die Proof-Pile-2 sowie den Code zur Reproduktion unserer Experimente.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Llemma: Ein offenes Sprachmodell für Mathematik | Paper | HyperAI