17日前
JamPatoisNLI:ジャマイカ・パトワイス自然言語推論データセット
Ruth-Ann Armstrong, John Hewitt, Christopher Manning

要約
JamPatoisNLIは、ジャマイカ・パトワス(Jamaican Patois)というクレオール語における自然言語推論(Natural Language Inference: NLI)のための初のデータセットを提供するものである。世界で最も広く話されている低リソース言語の多くはクレオール語に該当する。これらの言語は、一般的に主要な世界言語から語彙を引き継いでおり、元の話者たちの母語やクレオール化という言語生成プロセスを反映した特徴的な文法を持つ。このような特徴により、大規模な単言語または多言語事前学習モデルからの転移学習(transfer learning)の有効性を検証する上で、クレオール語は特異な位置を占めている。本研究およびこれまでの先行研究は、訓練データに含まれない言語に対して、こうしたモデルからの転移学習がそれほど効果的ではないことを示しているが、クレオール語への転移にはより高い性能が期待される。実際に、我々の実験結果は、ジャマイカ・パトワスに対する少データ学習(few-shot learning)において、関係のない低リソース言語よりも著しく優れた結果が得られることを示しており、クレオール語とその高リソース基盤言語との独特な関係が、多言語間NLPにおける転移にどのように影響するかを理解する手がかりを提供している。JamPatoisNLIは、自然に発生した前提(premises)と専門家が作成した仮説(hypotheses)から構成されており、伝統的に支援が不足しがちな言語に関する研究を促進する一歩であり、多言語NLPの理解に役立つ有用なベンチマークとしての価値を持つ。