vor 12 Tagen

SONAR-LLM: Autoregressiver Transformer, der in Satzembeddings denkt und in Tokens spricht

Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev

Abstract

Der kürzlich vorgeschlagene Large Concept Model (LCM) erzeugt Text, indem er eine Folge von satzweisen Embeddings vorhersagt und mit Hilfe von mittlerer quadratischer Abweichung oder Diffusionszielfunktionen trainiert wird. Wir stellen SONAR-LLM vor, einen nur aus einem Decoder bestehenden Transformer, der im selben kontinuierlichen SONAR-Embedding-Raum „denkt“, jedoch über eine tokenweise Kreuzentropie-Signalübertragung durch den fixierten SONAR-Decoder supervisiert wird. Dieses hybride Ziel behält die semantische Abstraktion des LCM bei, beseitigt jedoch seinen Diffusions-Sampler und stellt ein wahrscheinlichkeitstheoretisches Trainingsignal wieder her. Für Modellgrößen zwischen 39 Mio. und 1,3 Mrd. Parametern erreicht SONAR-LLM eine konkurrenzfähige Generierungsqualität. Wir präsentieren Skalierungstendenzen, Ablationsstudien, Benchmark-Ergebnisse und veröffentlichen den vollständigen Trainingscode sowie alle vortrainierten Checkpoints, um Reproduzierbarkeit und zukünftige Forschung zu fördern.