Command Palette
Search for a command to run...

要約
我々は、隠れ層サイズを増大させる際の二次コストを伴わずに、広い表現能力の利点を実現するフレームワーク「Virtual Width Networks(VWN)」を提案する。VWNは表現の幅(representational width)とバックボーンの幅を分離し、バックボーンの計算量をほぼ一定に保ったまま、埋め込み空間を拡張する。大規模な実験において、仮想幅を8倍に拡張した場合、次のトークン予測では最適化速度が2倍以上、次の2トークン予測では3倍以上に加速された。トレーニングの進行に伴い、損失ギャップが拡大し、収束速度向上比も増大するため、VWNはトークン効率性に加え、スケールが大きくなるほどより効果的であることが示された。さらに、仮想幅と損失低減の間には概ね対数線形のスケーリング関係が存在することを同定し、大規模モデルの効率性を新たな次元として仮想幅スケーリングを探索するための初期的な実証的根拠と動機を与えた。