HyperAI

概要

近年、残差接続を備えたより多くのトランスフォーマーブロックを用いた手法が、さまざまなタスクにおいて優れた成果を達成している。より少ない学習可能なパラメータで高い性能を実現するため、最近の手法では、パラメータ共有やモデル圧縮を用いて深さ方向に浅くするアプローチが提案されている。しかしながら、このようなアプローチはモデル表現力が弱いため、性能に限界がある。一方、より多くの学習可能な行列とパラメータを導入することでモデルの幅を広げる（wide）アプローチは、巨大なモデルを生み出し、訓練および推論に高度な並列処理を要するという課題を抱える。本論文では、深さではなく幅を広げるというパラメータ効率的なフレームワークを提案する。具体的には、既存の研究に従い、深さ方向の圧縮のためにパラメータ共有を採用する。しかし、この手法ではモデル表現力の最大化が制限される。そこで、モデルの幅方向にスケーリングすることで表現力を最大化するため、フィードフォワードネットワーク（FFN）を混合専門家モデル（Mixture-of-Experts, MoE）に置き換える。また、トランスフォーマーブロック間で正規化層を共有するのではなく、個別のレイヤーノーマライゼーション（LayerNorm）を用いることで、よりパラメータ効率的に多様な意味表現を変換することを提案する。本研究で提案するプラグアンドプレイ型フレームワークの有効性を検証するため、WideNetと呼ばれるモデルを設計し、代表的なコンピュータビジョンおよび自然言語処理のベンチマークで包括的な実験を実施した。ImageNet-1Kにおいて、最良のモデルはViTよりも1.5%高い精度を達成しつつ、学習可能なパラメータ数を0.72倍に削減した。さらに、パラメータ数を0.46倍および0.13倍に抑えたWideNetは、それぞれViTおよびViT-MoEを0.8%および2.1%上回った。自然言語処理の4つのデータセットにおいても、WideNetはALBERTを平均1.8%上回り、因子分解埋め込みパラメータ化を用いたBERTを0.8%上回る性能を、より少ないパラメータ数で達成した。

概要

Fuzhao Xue Ziji Shi Futao Wei Yuxuan Lou Yong Liu Yang You

概要

AIでAIを構築

HyperAI Newsletters

Fuzhao Xue Ziji Shi Futao Wei Yuxuan Lou Yong Liu Yang You

概要

AIでAIを構築

HyperAI Newsletters

Fuzhao Xue Ziji Shi Futao Wei Yuxuan Lou Yong Liu Yang You

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

より広く、深くではなく。

Fuzhao Xue Ziji Shi Futao Wei Yuxuan Lou Yong Liu Yang You

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

より広く、深くではなく。

Fuzhao Xue Ziji Shi Futao Wei Yuxuan Lou Yong Liu Yang You

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

より広く、深くではなく。

Fuzhao Xue Ziji Shi Futao Wei Yuxuan Lou Yong Liu Yang You

概要

AIでAIを構築

HyperAI Newsletters