15日前
DOCmT5:マルチリンガル言語モデルのドキュメントレベル事前学習
Chia-Hsuan Lee, Aditya Siddhant, Viresh Ratnakar, Melvin Johnson

要約
本稿では、大規模な並列ドキュメントを用いて事前学習された多言語シーケンス・トゥ・シーケンス言語モデルであるDOCmT5を紹介する。従来のアプローチは文単位の並列データの活用に注力してきたが、本研究では長文の理解と生成が可能な汎用的な事前学習モデルの構築を目指す。そのため、入力ドキュメントをシャッフルおよびマスクした上で翻訳を実行させる、シンプルかつ効果的な事前学習タスクである「ドキュメント再順序化機械翻訳(Document Reordering Machine Translation: DrMT)」を提案する。DrMTは、さまざまなドキュメントレベルの生成タスクにおいて強力なベースラインを一貫して上回る性能を示しており、既知の言語ペアにおけるドキュメントレベルの機械翻訳では12ポイント以上のBLEU値向上、未知の言語ペアでは7ポイント以上のBLEU値向上、また既知言語ペアにおけるクロスリンガル要約では3ポイント以上のROUGE-1向上を達成した。WMT20 De-EnおよびIWSLT15 Zh-Enドキュメント翻訳タスクにおいて、それぞれ最先端(SOTA)の性能を達成した。さらに、ドキュメント事前学習におけるさまざまな要因について広範な分析を行い、(1) 事前学習データの品質の影響、(2) 単言語学習とクロスリンガル学習の組み合わせの影響を検証した。今後、モデルのチェックポイントを公開する予定である。