2ヶ月前
英語中級タスク訓練もゼロショットクロスリンガル転送を改善する
Jason Phang; Iacer Calixto; Phu Mon Htut; Yada Pruksachatkun; Haokun Liu; Clara Vania; Katharina Kann; Samuel R. Bowman

要約
中間タスク訓練---事前学習モデルを目標タスクの微調整前に中間タスクで微調整すること---は、単一言語の英語設定において言語理解タスクのモデル性能を大幅に向上させることがしばしばあります。本研究では、英語の中間タスク訓練が非英語の目標タスクにおいても依然として有用かどうかを調査しました。9つの中間言語理解タスクを使用し、XTREMEベンチマーク上でゼロショットクロスリンガル設定における中間タスク転移を評価しました。BUCCおよびTatoebaの文検索タスクでは中間訓練から大きな改善が見られ、質問応答目標タスクでは中程度の改善が見られました。MNLI(Multi-Genre Natural Language Inference)、SQuAD(Stanford Question Answering Dataset)およびHellaSwagは、全体的に最も優れた結果を達成する中間タスクとなりました。一方、多目的の中間訓練は小さな追加的な改善をもたらすにとどまりました。各目標タスクに対して最良の中間モデルを使用することで、XTREMEベンチマーク上でのXLM-R Largeからの5.4ポイントの改善を得ることができ、2020年6月時点での最先端を樹立しました。また、中間タスク訓練中に多言語MLM(Masked Language Model)を継続したり、機械翻訳された中間タスクデータを使用したりする方法についても調査しましたが、これらは単純に英語の中間タスク訓練を行うことよりも一貫して優れているわけではありませんでした。