HyperAIHyperAI

Command Palette

Search for a command to run...

SONAR-LLM:文の埋め込みで思考し、トークンで発話する自己回帰型トランスフォーマー

Nikita Dragunov Temurbek Rahmatullaev Elizaveta Goncharova Andrey Kuznetsov Anton Razzhigaev

概要

最近提案されたLarge Concept Model(LCM)は、文単位の埋め込みのシーケンスを予測することでテキストを生成し、平均二乗誤差または拡散(diffusion)目的関数を用いて学習する。本研究では、連続的なSONAR埋め込み空間で「思考」を行うデコーダーのみを用いたTransformerモデル、SONAR-LLMを提案する。このモデルは、固定されたSONARデコーダーを介して伝播されるトークン単位の交差エントロピーにより監督される。このハイブリッド目的関数は、LCMが持つ意味的抽象化能力を維持しつつ、拡散サンプラーを排除し、尤度に基づく学習信号を回復する。39Mから1.3Bパラメータに至るさまざまなモデルサイズにおいて、SONAR-LLMは競争力のある生成品質を達成している。本研究ではスケーリングの傾向、アブレーション実験、ベンチマーク評価の結果を報告し、再現性および今後の研究を促進するため、完全な学習コードおよびすべての事前学習済みチェックポイントを公開する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SONAR-LLM:文の埋め込みで思考し、トークンで発話する自己回帰型トランスフォーマー | 記事 | HyperAI超神経