1ヶ月前

異常に大きなニューラルネットワーク:疎なゲート付きエキスパートの層

Noam Shazeer; Azalia Mirhoseini; Krzysztof Maziarz; Andy Davis; Quoc Le; Geoffrey Hinton; Jeff Dean
異常に大きなニューラルネットワーク:疎なゲート付きエキスパートの層
要約

ニューラルネットワークの情報吸収能力は、そのパラメータ数によって制限されます。理論上、各サンプルごとにネットワークの一部が活性化する条件付き計算は、計算量を比例的に増加させずにモデル容量を大幅に拡大する方法として提案されてきました。しかし、実際には重要なアルゴリズムと性能上の課題があります。本研究では、これらの課題に対処し、条件付き計算の約束をついに実現しました。現代のGPUクラスタ上でわずかな計算効率の損失のみで、1000倍以上のモデル容量の向上を達成しています。私たちは疎結合型エキスパート混合層(Sparsely-Gated Mixture-of-Experts layer: MoE)を導入します。この層は最大数千のフィードフォワードサブネットワークから構成されています。学習可能なゲートネットワークが各サンプルに対して使用するエキスパートの疎な組み合わせを決定します。私たちは言語モデリングと機械翻訳というタスクにMoEを適用しました。これらのタスクでは、訓練コーパスに含まれる膨大な知識を吸収するためにモデル容量が重要です。私たちは最大137億パラメータを持つMoEを積層LSTMレイヤー間で畳み込み的に適用したモデルアーキテクチャを提示します。大規模な言語モデリングおよび機械翻訳ベンチマークにおいて、これらのモデルはより低い計算コストで従来の最先端技術よりも著しく優れた結果を達成しています。