2ヶ月前
古典的な構造予測損失関数のシーケンス・ツー・シーケンス学習への適用
Sergey Edunov; Myle Ott; Michael Auli; David Grangier; Marc'Aurelio Ranzato

要約
最近、強化学習的手法やビーム探索の最適化を用いてシーケンスレベルでニューラルアテンションモデルを訓練する研究が盛んに行われています。本論文では、構造予測のために線形モデルを訓練するために広く使用されてきた古典的な目的関数の範囲を調査し、それらをニューラルシーケンス・トゥ・シーケンスモデルに適用します。実験結果は、これらの損失関数がわずかにビーム探索の最適化を上回る性能を示すことがわかりました。また、IWSLT'14ドイツ語-英語翻訳およびGigaword抽象要約において新たな最先端の結果を得ました。より大規模なWMT'14英語-フランス語翻訳タスクにおいても、シーケンスレベルでの訓練は41.5 BLEU(Bilingual Evaluation Understudy)を達成しており、これは最先端の成果と同等です。