HyperAIHyperAI

Command Palette

Search for a command to run...

SONAR-LLM: Autoregressiver Transformer, der in Satzembeddings denkt und in Tokens spricht

Nikita Dragunov Temurbek Rahmatullaev Elizaveta Goncharova Andrey Kuznetsov Anton Razzhigaev

Zusammenfassung

Der kürzlich vorgeschlagene Large Concept Model (LCM) erzeugt Text, indem er eine Folge von satzweisen Embeddings vorhersagt und mit Hilfe von mittlerer quadratischer Abweichung oder Diffusionszielfunktionen trainiert wird. Wir stellen SONAR-LLM vor, einen nur aus einem Decoder bestehenden Transformer, der im selben kontinuierlichen SONAR-Embedding-Raum „denkt“, jedoch über eine tokenweise Kreuzentropie-Signalübertragung durch den fixierten SONAR-Decoder supervisiert wird. Dieses hybride Ziel behält die semantische Abstraktion des LCM bei, beseitigt jedoch seinen Diffusions-Sampler und stellt ein wahrscheinlichkeitstheoretisches Trainingsignal wieder her. Für Modellgrößen zwischen 39 Mio. und 1,3 Mrd. Parametern erreicht SONAR-LLM eine konkurrenzfähige Generierungsqualität. Wir präsentieren Skalierungstendenzen, Ablationsstudien, Benchmark-Ergebnisse und veröffentlichen den vollständigen Trainingscode sowie alle vortrainierten Checkpoints, um Reproduzierbarkeit und zukünftige Forschung zu fördern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SONAR-LLM: Autoregressiver Transformer, der in Satzembeddings denkt und in Tokens spricht | Paper | HyperAI