13日前
言語モデルは事前学習以外にも活用可能:高速なオンラインニューラルノイジーチャネルモデリング
Shruti Bhosale, Kyra Yee, Sergey Edunov, Michael Auli

要約
大量のラベルなしデータに対する事前学習モデルの訓練は、多くの自然言語処理(NLP)タスクにおける精度向上に有効なアプローチとして浮上している。一方、従来の機械翻訳は、ノイズのあるチャネルモデルを用いてラベルなしデータを活用する歴史を有している。この考え方は最近、ニューラル機械翻訳において顕著な性能向上を達成することが示された。しかしながら、現代のシーケンス・トゥ・シーケンスモデルに素朴なノイズのあるチャネルモデルを適用すると、他の手法と比べて最大で1桁の速度低下が生じる。本研究では、この問題に対処するため、ノイズのあるチャネルアプローチの推論を、強力なアンサンブルと同等の速度で行える効率的な近似手法を導入する。さらに、ノイズのあるチャネルアプローチが、強力な事前学習結果を上回り、WMTローマニア語-英語翻訳タスクにおいて新たなSOTA(最良の成果)を達成できることを示した。