15日前
効率的な言語モデリングにおけるスパースall-MLP
Ping Yu, Mikel Artetxe, Myle Ott, Sam Shleifer, Hongyu Gong, Ves Stoyanov, Xian Li

要約
すべてのMLP(多層パーセプトロン)アーキテクチャは、アテンションベースのモデルに対する代替手段として、注目を集めている。自然言語処理(NLP)分野では、gMLPなどの最近の研究により、すべてのMLPが言語モデリングにおいてTransformerと同等の性能を達成することが示されたが、下流タスクでは依然としてその性能が劣っている。本研究では、MLPの表現力における限界を分析し、特徴量次元および入力(トークン)次元の両方において、混合専門家(Mixture-of-Experts, MoE)を導入したスパースに活性化されるMLPを提案する。このスパースなすべてのMLPは、計算量を維持しつつ、モデルの容量と表現力を著しく向上させる。さらに、条件付き計算を実装する際の重要な課題に対処するために、2つのルーティング戦略を採用している。提案手法であるスパースなすべてのMLPは、TransformerベースのMoE(GShard、Switch Transformer、Base Layers、HASH Layers)および密なTransformer、すべてのMLPと比較して、言語モデリングの困惑度(perplexity)を改善し、トレーニング効率において最大2倍の向上を達成した。最後に、6つの下流タスクにおけるゼロショット・インコンテキスト学習性能を評価した結果、このモデルはTransformerベースのMoEおよび密なTransformerを上回ることが確認された。