12日前
SONAR-LLM:文の埋め込みで思考し、トークンで発話する自己回帰型トランスフォーマー
Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev

要約
最近提案されたLarge Concept Model(LCM)は、文単位の埋め込みのシーケンスを予測することでテキストを生成し、平均二乗誤差または拡散(diffusion)目的関数を用いて学習する。本研究では、連続的なSONAR埋め込み空間で「思考」を行うデコーダーのみを用いたTransformerモデル、SONAR-LLMを提案する。このモデルは、固定されたSONARデコーダーを介して伝播されるトークン単位の交差エントロピーにより監督される。このハイブリッド目的関数は、LCMが持つ意味的抽象化能力を維持しつつ、拡散サンプラーを排除し、尤度に基づく学習信号を回復する。39Mから1.3Bパラメータに至るさまざまなモデルサイズにおいて、SONAR-LLMは競争力のある生成品質を達成している。本研究ではスケーリングの傾向、アブレーション実験、ベンチマーク評価の結果を報告し、再現性および今後の研究を促進するため、完全な学習コードおよびすべての事前学習済みチェックポイントを公開する。