
要約
多言語機械読解(MMC)は、質問と文章断片が異なる言語である場合でも、与えられた文章断片から質問に対する答えを引用するという質問応答(QA)のサブタスクです。最近公開されたBERTの多言語バリアント(m-BERT)は、104言語で事前学習されており、ゼロショット設定および微調整設定において多言語タスクで良好な性能を示しています。しかし、m-BERTはまだ英語-ヒンディー語のMMCには使用されていません。そこで本稿では、m-BERTを使用してゼロショット、単一言語(例:ヒンディー語質問-ヒンディー語断片)、クロスリンガル(例:英語質問-ヒンディー語断片)の微調整設定での実験結果を報告します。これらのモデルバリエントは、すべての可能な多言語設定で評価され、これらの言語用の現在の最先端の逐次QAシステムとの比較が行われました。実験結果は、先行モデルが使用した2つのデータセットにおけるすべての評価設定でm-BERTが性能を向上させていることを示しており、これによりm-BERTベースのMMCが英語とヒンディー語における新しい最先端技術として確立されました。また、最近公開されたXQuADデータセットの拡張版についても結果を公表し、今後の研究における評価ベンチマークとして使用することを提案しています。