FarsTail:ペルシャ語自然言語推論データセット

自然言語推論(Natural Language Inference: NLI)は、自然言語処理(Natural Language Processing: NLP)における中心的なタスクの一つとして知られており、言語理解の多くの基本的側面を包含している。近年、データ依存性の高い深層学習手法がNLPタスクにおいて顕著な成果を上げたことに伴い、さまざまな言語向けに多様なデータセットの開発に多大な努力が注がれてきた。本論文では、中東地域における主要言語の一つであるペルシア語(通称ファルシー語)向けのNLIタスク用に新たなデータセットを提示する。このデータセットは「FarsTail」と名付けられ、10,367件のサンプルを含んでおり、ペルシア語表記に加えて、非ペルシア語話者研究者にとっても利用しやすいインデックス形式で提供されている。これらのサンプルは、SciTailデータセットと同様のアプローチにより、3,539件の複数選択式問題から最小限のアノテーター介入で生成されたものである。データセットの品質を確保するために、慎重に設計された複数ステップのプロセスが採用されている。また、本研究では、word2vec、fastText、ELMo、BERT、LASERといった異なる埋め込み手法、およびDecompAtt、ESIM、HBMP、ULMFiTといった異なるモデル構築アプローチを用いた従来手法および最先端手法のFarsTail上での実験結果を提示し、今後の研究に向けた堅実なベースラインを提供する。得られた最高のテスト精度は83.38%であり、現行の手法が実世界のNLP応用において多言語に対応するためには大幅な改善の余地があることを示している。さらに、モデルがFarsTailデータセット内で「表面的ヒント」(すなわちデータセットバイアス)をどの程度利用しているかを検証し、バイアスに依存するモデルの性能に基づいてテストセットを「容易」および「困難」なサブセットに分類した。本データセットは、https://github.com/dml-qom/FarsTail にて公開されている。