17日前

MuCoT:低リソース言語における質問応答のための多言語対比学習

Gokul Karthik Kumar, Abhishek Singh Gehlot, Sahal Shaji Mullappilly, Karthik Nandakumar
MuCoT:低リソース言語における質問応答のための多言語対比学習
要約

近年、Transformerベースのモデル(例:BERT)の登場により、英語の質問応答(QA)システムの精度は著しく向上している。これらのモデルは、大規模な英語テキストコーパスを用いて自己教師あり学習の形で事前学習され、さらに大規模な英語QAデータセット(例:SQuAD)を用いて微調整される。しかし、他の多くの言語について、同程度の規模のQAデータセットは存在しない。そのため、多言語BERTベースのモデル(mBERT)が、高リソース言語から低リソース言語への知識の転移に広く用いられている。mBERTは、複数の言語を含む大規模なテキストコーパスを用いて事前学習されるため、異なる言語からのトークンに対して、言語に依存しない埋め込み(language-agnostic embeddings)を学習する傾向がある。しかし、低リソース言語のQAデータが極めて限られているため、mBERTベースのQAシステムを直接学習することは困難である。本研究では、ターゲット言語のQAサンプルを、他の言語への翻訳および発音転写(transliteration)を用いて拡張し、すでに英語で事前学習済みのmBERTベースのQAモデルを、拡張データで微調整する手法を提案する。Google ChAIIデータセットを用いた実験の結果、同じ語族に属する言語からの翻訳データを用いた微調整は、質問応答性能を向上させる一方で、異語族間の翻訳データを用いた場合、性能が低下することが明らかになった。さらに、微調整プロセス中に翻訳された質問-文脈の特徴ペア間に対照学習(contrastive loss)を導入することで、異語族翻訳データによる性能低下を抑制し、わずかな性能向上を達成できることを示した。本研究のコードは、https://github.com/gokulkarthik/mucot にて公開されている。