HyperAIHyperAI

Command Palette

Search for a command to run...

より広く、深くではなく。

Fuzhao Xue Ziji Shi Futao Wei Yuxuan Lou Yong Liu Yang You

概要

近年、残差接続を備えたより多くのトランスフォーマーブロックを用いた手法が、さまざまなタスクにおいて優れた成果を達成している。より少ない学習可能なパラメータで高い性能を実現するため、最近の手法では、パラメータ共有やモデル圧縮を用いて深さ方向に浅くするアプローチが提案されている。しかしながら、このようなアプローチはモデル表現力が弱いため、性能に限界がある。一方、より多くの学習可能な行列とパラメータを導入することでモデルの幅を広げる(wide)アプローチは、巨大なモデルを生み出し、訓練および推論に高度な並列処理を要するという課題を抱える。本論文では、深さではなく幅を広げるというパラメータ効率的なフレームワークを提案する。具体的には、既存の研究に従い、深さ方向の圧縮のためにパラメータ共有を採用する。しかし、この手法ではモデル表現力の最大化が制限される。そこで、モデルの幅方向にスケーリングすることで表現力を最大化するため、フィードフォワードネットワーク(FFN)を混合専門家モデル(Mixture-of-Experts, MoE)に置き換える。また、トランスフォーマーブロック間で正規化層を共有するのではなく、個別のレイヤーノーマライゼーション(LayerNorm)を用いることで、よりパラメータ効率的に多様な意味表現を変換することを提案する。本研究で提案するプラグアンドプレイ型フレームワークの有効性を検証するため、WideNetと呼ばれるモデルを設計し、代表的なコンピュータビジョンおよび自然言語処理のベンチマークで包括的な実験を実施した。ImageNet-1Kにおいて、最良のモデルはViTよりも1.5%高い精度を達成しつつ、学習可能なパラメータ数を0.72倍に削減した。さらに、パラメータ数を0.46倍および0.13倍に抑えたWideNetは、それぞれViTおよびViT-MoEを0.8%および2.1%上回った。自然言語処理の4つのデータセットにおいても、WideNetはALBERTを平均1.8%上回り、因子分解埋め込みパラメータ化を用いたBERTを0.8%上回る性能を、より少ないパラメータ数で達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
より広く、深くではなく。 | 記事 | HyperAI超神経