2ヶ月前

シーケンスレベルの知識蒸留

Yoon Kim; Alexander M. Rush
シーケンスレベルの知識蒸留
要約

ニューラル機械翻訳(NMT)は、統計的手法よりも潜在的に単純な新しい翻訳の枠組みを提供します。しかし、競合する性能に達するためには、NMTモデルは非常に大規模である必要があります。本論文では、他の分野で神経モデルのサイズ削減に成功している知識蒸留手法(Bucilaら, 2006; Hintonら, 2015)をNMTの問題に適用することを検討します。私たちは、単語レベルの予測に対する標準的な知識蒸留がNMTに対して効果的であることを示し、さらに性能向上に寄与する2つの新しい系列レベルの知識蒸留バージョンを導入します。意外にも、これらの手法はビームサーチの必要性を排除することが可能です(元の教師モデルにおいても同様です)。私たちの最良の学生モデルは、最先端の教師モデルより10倍速く動作し、性能低下はほとんどありません。また、知識蒸留なしで訓練された基準モデルと比較しても、大幅に優れています:貪欲デコーディング/ビームサーチでは4.2/1.7 BLEU点高いです。さらに、知識蒸留に重みプルーニングを適用することで、学生モデルは元の教師モデルよりも13倍少ないパラメータ数となり、BLEU点は0.4低下しました。