17日前
大規模な単言語データの活用によるニューラル機械翻訳
{Jian-Huang Lai, Tie-Yan Liu, Yiren Wang, Tao Qin, Lijun Wu, Yingce Xia}

要約
ターゲット側の単言語データは、バックトランスレーションを通じてニューラル機械翻訳(以下、NMT)の性能向上に非常に有効であることが実証されているが、ソース側の単言語データについては十分に調査されていない。本研究では、ソース側およびターゲット側の両方の単言語データをNMTに活用する方法を検討し、それらを効果的に統合する戦略を提案する。まず、本物の双語テキスト(bitext)で事前学習されたモデルを用いて、両ドメインの単言語データを相互に翻訳し、合成された双語データ(synthetic bitext)を生成する。次に、これらの合成データを連結したものをノイズを加えたバージョンで用いてモデルを学習する。ここで、各ソースシーケンスはランダムに破損(corruption)される。最後に、モデルは本物の双語データおよび合成データの一部のクリーンなバージョン(ノイズを加えない)上でファインチューニングを行う。本手法は、WMT16、WMT17、WMT18の英語↔ドイツ語翻訳およびWMT19のドイツ語→フランス語翻訳において、最先端の性能を達成した。これにより、本手法の有効性が実証された。さらに、パイプライン内の各構成要素がどのように機能するかについて、包括的な分析も実施した。