17 天前
FarsTail:一个波斯语自然语言推理数据集
Hossein Amirkhani, Mohammad AzariJafari, Zohreh Pourjafari, Soroush Faridan-Jahromi, Zeinab Kouhkan, Azadeh Amirak

摘要
自然语言推理(Natural Language Inference, NLI)是自然语言处理(Natural Language Processing, NLP)领域中的核心任务之一,涵盖了语言理解的诸多基本方面。随着数据驱动的深度学习方法在NLP任务中取得显著进展,研究者们投入大量精力构建适用于不同语言的多样化数据集。本文提出一个面向波斯语(即法尔西语)的NLI新数据集,该语言是中东地区的主要语言之一。该数据集命名为FarsTail,包含10,367个样本,既以波斯语形式提供,也以索引化格式呈现,便于非波斯语研究者使用。这些样本源自3,539道多项选择题,通过类似SciTail数据集的生成方式,在尽可能减少人工标注干预的前提下构建而成。为确保数据质量,我们采用了一套精心设计的多步骤流程进行数据构建与筛选。此外,本文还报告了传统方法与当前先进模型在FarsTail数据集上的实验结果,涵盖多种词嵌入方法(如word2vec、fastText、ELMo、BERT和LASER)以及不同建模方法(如DecompAtt、ESIM、HBMP和ULMFiT),旨在为未来相关研究提供可靠的基准性能。实验结果显示,最优模型在测试集上达到83.38%的准确率,表明当前方法在处理真实世界多语言NLP应用时仍有巨大提升空间。为进一步分析模型对表面线索(即数据集偏差,dataset biases)的依赖程度,本文对测试集进行了划分,依据偏差模型的预测表现将其分为“简单”与“困难”两个子集。该数据集现已开源,可通过以下链接获取:https://github.com/dml-qom/FarsTail