SONAR-LLM : Transformer autoregressive qui pense en embeddings de phrases et parle en tokens

Le modèle conceptuellement large (LCM), récemment proposé, génère du texte en prédisant une séquence d’embeddings au niveau des phrases, en s’entraînant soit avec une fonction d’erreur quadratique moyenne, soit avec une approche de diffusion. Nous présentons SONAR-LLM, un modèle transformer à décodage uniquement qui « pense » dans le même espace d’embeddings continu SONAR, tout en étant supervisé par une entropie croisée au niveau des tokens, propagée via le décodeur SONAR gelé. Cette approche hybride préserve l’abstraction sémantique du LCM tout en éliminant son échantillonneur de diffusion et en restaurant un signal d’entraînement fondé sur la vraisemblance. Sur des modèles aux tailles variant de 39 M à 1,3 milliard de paramètres, SONAR-LLM atteint une qualité de génération compétitive. Nous rapportons les tendances d’agrandissement, les analyses d’ablation, les résultats sur des benchmarks, et mettons à disposition le code complet d’entraînement ainsi que tous les points de contrôle préentraînés, afin de favoriser la reproductibilité et les recherches futures.