17 天前

JamPatoisNLI:一个牙买加帕托伊语自然语言推理数据集

Ruth-Ann Armstrong, John Hewitt, Christopher Manning
JamPatoisNLI:一个牙买加帕托伊语自然语言推理数据集
摘要

JamPatoisNLI 是首个针对克里奥尔语——牙买加帕托伊语(Jamaican Patois)的自然语言推理(Natural Language Inference, NLI)数据集。全球使用人数最多的许多低资源语言均为克里奥尔语。这类语言的词汇通常源自一种主要的世界语言,而其语法结构则体现了原始使用者语言的影响以及语言形成过程中克里奥化(creolization)的特征。这使得克里奥尔语在探究大规模单语或双语预训练模型向其他语言迁移的有效性方面具有独特地位。尽管我们的研究以及以往的工作表明,将这些预训练模型迁移到与其训练语料中语言无关联的低资源语言时,迁移效果有限,但我们预期其在克里奥尔语上的迁移表现会更为出色。事实上,实验结果表明,针对 JamPatoisNLI 的少样本学习(few-shot learning)性能显著优于对非相关语言的迁移效果,这有助于我们初步理解克里奥尔语与其高资源母语之间独特关系对跨语言迁移的影响机制。JamPatoisNLI 数据集由自然语料中提取的前提(premises)和专家撰写的假设(hypotheses)构成,标志着推动对这一长期被忽视的语言开展研究的重要一步,同时也为理解跨语言自然语言处理(NLP)提供了有价值的基准。