Command Palette
Search for a command to run...
Skalierung latenter Schlussfolgerung mittels geschlossener Sprachmodelle

Abstract
Moderne große Sprachmodelle werden hauptsächlich durch explizite Textgenerierung, beispielsweise durch Chain-of-Thought (CoT), „denken“ lassen, wodurch der Schlussfolgerungsprozess auf die Nachtrainingsphase verlagert und das Vortrainingsdatenmaterial ungenutzt bleibt. Wir stellen Ouro vor – benannt nach dem rekursiven Ouroboros – eine Familie vortrainierter, geschlossener Sprachmodelle (LoopLM), die die Schlussfolgerung bereits in die Vortrainingsphase integrieren, durch (i) iterative Berechnung im latente Raum, (ii) ein entropieregeltes Optimierungsziel zur lernbaren Verteilung der Rekursionstiefe und (iii) Skalierung auf bis zu 7,7 Billionen Tokens. Die Modelle Ouro 1,4B und 2,6B erreichen eine herausragende Leistung, die mit der von bis zu 12B-Modellen der neuesten Generation auf einer breiten Palette von Benchmarks konkurriert. Kontrollierte Experimente zeigen, dass dieser Vorteil nicht auf eine erhöhte Wissenskapazität zurückzuführen ist, sondern vielmehr auf eine überlegene Fähigkeit zur Wissensverarbeitung. Zudem belegen wir, dass LoopLM Schlussfolgerungstrajektorien erzeugt, die stärker mit den endgültigen Ausgaben übereinstimmen als explizite CoT-Verfahren. Wir hoffen, dass unsere Ergebnisse das Potenzial von LoopLM als neue Skalierungsrichtung im Zeitalter des logischen Schließens verdeutlichen. Unser Modell ist unter http://ouro-llm.github.io verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.