Command Palette
Search for a command to run...

要約
ゲーティング機構は、初期のモデルであるLSTMやHighway Networkから、最近の状態空間モデルや線形アテンション、さらにはソフトマックスアテンションに至るまで、広く利用されてきた。しかし、既存の文献では、ゲーティングの具体的な効果についての検討はほとんど行われていない。本研究では、ゲーティングを導入したソフトマックスアテンションのバリエーションについて、体系的かつ包括的な実験を実施する。具体的には、3.5兆トークンのデータセット上で学習された150億パラメータのMixture-of-Experts(MoE)モデル30種類および17億パラメータの密度型モデルの比較を実施した。本研究の中心的な発見は、スケーリングドットプロダクトアテンション(SDPA)の出力後にヘッド固有のシグモイドゲートを適用するという単純な修正が、一貫して性能向上をもたらす点である。この修正は、訓練の安定性を向上させ、より大きな学習率を許容可能にし、スケーリング特性も改善することが明らかになった。さまざまなゲーティング位置および計算アーキテクチャを比較した結果、その有効性の背景には以下の2つの要因があると特定した:(1)ソフトマックスアテンションにおける低ランク変換に非線形性を導入すること、および(2)クエリ依存のスパースゲートスコアを用いてSDPAの出力を調整すること。特に注目すべきは、このスパースゲーティング機構が、過大な活性化やアテンションシンク現象を緩和し、長文コンテキストの外挿性能を向上させることである。また、今後の研究を促進するため、関連コード(https://github.com/qiuzh20/gated_attention)およびモデル(https://huggingface.co/QwQZh/gated_attention)を公開する。さらに、本研究で最も効果的なSDPA出力ゲーティングは、Qwen3-Nextモデル(https://huggingface.co/collections/Qwen/qwen3-next)に採用されている。