12 天前
SONAR-LLM:一种在句子嵌入中思考并在token中表达的自回归Transformer
Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev

摘要
近期提出的大型概念模型(Large Concept Model, LCM)通过预测一系列句子级嵌入来生成文本,并采用均方误差或扩散目标进行训练。我们提出 SONAR-LLM,这是一种仅包含解码器的 Transformer 模型,其在连续的 SONAR 嵌入空间中“思考”,但通过冻结的 SONAR 解码器传播的词元级交叉熵进行监督训练。该混合目标在保留 LCM 语义抽象能力的同时,摒弃了其扩散采样器,并恢复了基于似然的训练信号。在参数量从 3900 万到 13 亿的多个模型规模下,SONAR-LLM 均实现了具有竞争力的生成质量。我们报告了模型扩展趋势、消融实验结果、基准测试表现,并公开了完整的训练代码及所有预训练检查点,以促进结果可复现性并推动后续研究。