概要

言語モデルのスケーリングは印象的な能力を解錠しますが、それに伴う計算量とメモリの要求により、学習と展開の両方が高コストとなります。既存の効率化努力は通常、パラメータ共有または適応的計算のいずれかに焦点を当てており、両方を同時に達成する方法については未解決の問題となっています。本稿では、Mixture-of-Recursions (MoR) という統一フレームワークを導入し、単一の再帰トランスフォーマー内でこれらの2つの効率軸を組み合わせます。MoR は再帰ステップ間で共有される層スタックを再利用することでパラメータ効率を実現します。一方、軽量なルーターが個々のトークンに異なる再帰深さを動的に割り当てることで、適応的なトークンレベルでの処理を可能にします。これにより、MoR は特定の再帰深さでまだアクティブなトークン間のみに二次元注意計算を集中させることができ、さらに選択的にそれらのキー・バリュー対のみをキャッシュすることでメモリアクセス効率が向上します。これらの核心的な機構に加えて、KV 共有変種も提案しています。これは最初の再帰から KV 対を使用し直すことでプリフィル遅延とメモリ使用量を削減することを目指して設計されています。135M から 1.7B パラメータまでのさまざまなモデルサイズにおいて、MoR は新たなパレートフロンティアを形成します：同等の学習 FLOPs（浮動小数点演算）とより小さなモデルサイズで検証時の困惑度が大幅に低下し、ショット数が少ない場合でも精度が向上します。また、従来型および既存の再帰ベースラインと比較して高いスループット（処理速度）を提供します。これらの改善は、MoR が大規模モデル品質への効果的な道筋でありながら大規模モデルコストを負担せずにその品質を得られる可能性があることを示しています。

ソースPDF コードを表示