Command Palette
Search for a command to run...
Chenze Shao Darren Li Fandong Meng Jie Zhou

要約
大規模言語モデル(LLM)の効率は、根本的に逐次的でトークン単位の生成プロセスに制限されている。本研究では、このボトルネックを克服するには、LLMのスケーリングに新たな設計軸が必要であると主張する。すなわち、各生成ステップにおける意味的帯域幅を拡大することである。これを実現するために、我々は「連続自己回帰型言語モデル(Continuous Autoregressive Language Models: CALM)」を提案する。CALMは、離散的な次トークン予測から連続的な次ベクトル予測へのパラダイム転換を実現する。CALMは高精度な自己符号化器を用いて、K個のトークンを1つの連続ベクトルに圧縮し、元のトークンを99.9%以上の精度で再構成可能である。これにより、言語を離散的なトークンの列ではなく、連続的なベクトルの列としてモデル化できるようになり、生成ステップ数をK分の1に削減できる。このパラダイムの転換には、新たなモデリングツールキットの開発が不可欠であるため、我々は連続領域における堅牢な学習、評価、制御可能なサンプリングを可能にする包括的な尤度フリー(likelihood-free)フレームワークを構築した。実験の結果、CALMは性能と計算コストのトレードオフを著しく改善し、強力な離散ベースラインと同等の性能を、はるかに低い計算コストで達成した。さらに重要なのは、これらの結果が「次ベクトル予測」が超効率的な言語モデルへの強力かつスケーラブルな道筋であることを確立した点である。コード:https://github.com/shaochenze/calm。プロジェクトページ:https://shaochenze.github.io/blog/2025/CALM。