17日前

タグレス・バックトランスレーション

Idris Abdulmumin, Bashir Shehu Galadanci, Aliyu Garba
タグレス・バックトランスレーション
要約

ニューラル機械翻訳(NMT)システムの性能向上を図るための大量の並列文を生成する有効な手法として、対象言語側の単言語データに対するバック翻訳(back-translation)の利用が挙げられる。従来のバック翻訳手法は、訓練中に翻訳モデルが本物の並列データと合成された並列データを区別できないため、既存の膨大な単言語データを効率的に活用できないことが明らかになっている。これに対して、タグ付けやゲートの導入が行われ、翻訳モデルが合成データと本物データを識別できるようにすることで、従来のバック翻訳の性能を向上させるとともに、反復的バック翻訳(iterative back-translation)を、従来手法では性能が低かった言語対にも適用可能にした。本研究では、バック翻訳をドメイン適応(domain adaptation)の問題として捉え、明示的なタグ付けの必要性を排除するアプローチを提案する。このアプローチ——「タグレス・バック翻訳(tag-less back-translation)」——では、合成並列データをドメイン外(out-of-domain)データ、本物の並列データをドメイン内(in-domain)データとして扱い、事前学習と微調整(fine-tuning)を通じて、モデルが訓練中にそれらからより効率的に学習できることを示した。実験結果から、低資源言語対である英語–ベトナム語および英語–ドイツ語におけるニューラル機械翻訳において、本手法は従来のバック翻訳およびタグ付きバック翻訳を上回る性能を発揮することが確認された。