HyperAI

要約

我々は、隠れ層サイズを増大させる際の二次コストを伴わずに、広い表現能力の利点を実現するフレームワーク「Virtual Width Networks（VWN）」を提案する。VWNは表現の幅（representational width）とバックボーンの幅を分離し、バックボーンの計算量をほぼ一定に保ったまま、埋め込み空間を拡張する。大規模な実験において、仮想幅を8倍に拡張した場合、次のトークン予測では最適化速度が2倍以上、次の2トークン予測では3倍以上に加速された。トレーニングの進行に伴い、損失ギャップが拡大し、収束速度向上比も増大するため、VWNはトークン効率性に加え、スケールが大きくなるほどより効果的であることが示された。さらに、仮想幅と損失低減の間には概ね対数線形のスケーリング関係が存在することを同定し、大規模モデルの効率性を新たな次元として仮想幅スケーリングを探索するための初期的な実証的根拠と動機を与えた。

バーチャル幅ネットワーク

Seed Baisheng Li Banggu Wu Bole Ma Bowen Xiao Chaoyi Zhang Cheng Li Chengyi Wang Chenyin Xu Chi Zhang

要約

AI で AI を構築

Hyper Newsletters

Command Palette

バーチャル幅ネットワーク

Seed Baisheng Li Banggu Wu Bole Ma Bowen Xiao Chaoyi Zhang Cheng Li Chengyi Wang Chenyin Xu Chi Zhang109 more

要約

AI で AI を構築

Hyper Newsletters

Seed Baisheng Li Banggu Wu Bole Ma Bowen Xiao Chaoyi Zhang Cheng Li Chengyi Wang Chenyin Xu Chi Zhang