Command Palette

Search for a command to run...

9日前

バーチャル幅ネットワーク

バーチャル幅ネットワーク

要約

我々は、隠れ層サイズを増大させる際の二次コストを伴わずに、広い表現能力の利点を実現するフレームワーク「Virtual Width Networks(VWN)」を提案する。VWNは表現の幅(representational width)とバックボーンの幅を分離し、バックボーンの計算量をほぼ一定に保ったまま、埋め込み空間を拡張する。大規模な実験において、仮想幅を8倍に拡張した場合、次のトークン予測では最適化速度が2倍以上、次の2トークン予測では3倍以上に加速された。トレーニングの進行に伴い、損失ギャップが拡大し、収束速度向上比も増大するため、VWNはトークン効率性に加え、スケールが大きくなるほどより効果的であることが示された。さらに、仮想幅と損失低減の間には概ね対数線形のスケーリング関係が存在することを同定し、大規模モデルの効率性を新たな次元として仮想幅スケーリングを探索するための初期的な実証的根拠と動機を与えた。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
バーチャル幅ネットワーク | 論文 | HyperAI超神経