17日前

要件に応じた構造的ドロップアウトによるTransformerの深さ低減

Angela Fan, Edouard Grave, Armand Joulin
要件に応じた構造的ドロップアウトによるTransformerの深さ低減
要約

過剰パラメータ化されたトランスフォーマーネットワークは、機械翻訳、言語モデリング、質問応答など、さまざまな自然言語処理タスクにおいて最先端の成果を達成している。これらのモデルは数億ものパラメータを含んでおり、膨大な計算資源を必要とするとともに、過学習のリスクも高くなる。本研究では、構造化ドロップアウトの一形態であるLayerDropに着目し、訓練中に正則化効果をもたらし、推論時の効率的な構造削減を可能にする手法を検討する。特に、一度の大規模なネットワークから、任意の深さのサブネットワークを微調整せずに選択可能であり、性能への影響を最小限に抑えられることを示す。本手法の有効性を実証するため、機械翻訳、言語モデリング、要約、質問応答、言語理解のベンチマークにおいて、既存の最先端性能をさらに向上させた。さらに、本手法により、スクラッチからの学習や知識蒸留を用いる場合と比較して、より高品質な小規模なBERT型モデルを構築できることも示した。

要件に応じた構造的ドロップアウトによるTransformerの深さ低減 | 最新論文 | HyperAI超神経