13 天前

IndicNLPSuite:印度语言的单语语料库、评估基准及预训练多语言语言模型

{Pratyush Kumar., Mitesh M. Khapra, Avik Bhattacharyya, Gokul N.C., Satish Golla, Anoop Kunchukuttan, Divyanshu Kakwani}
IndicNLPSuite:印度语言的单语语料库、评估基准及预训练多语言语言模型
摘要

本文介绍了来自两大语言家族的11种主要印度语言的自然语言处理(NLP)资源。这些资源包括:(a) 大规模的句子级单语语料库,(b) 预训练词嵌入,(c) 预训练语言模型,以及(d) 多个自然语言理解(NLU)评估数据集(即IndicGLUE基准测试)。 单语语料库涵盖全部11种印度语言及印度英语,总计包含88亿个词元(tokens),主要来源于新闻网页爬取。词嵌入基于FastText框架构建,因此能够有效处理印度语言复杂的形态结构。预训练语言模型基于轻量级的ALBERT架构。此外,我们构建了针对印度语言NLU任务的IndicGLUE基准测试,涵盖以下任务的数据集:文章体裁分类、标题预测、维基百科章节标题预测、填空式多选问答(Cloze-style Multiple Choice QA)、Winograd自然语言推理(NLI)以及COPA(Choice of Plausible Alternatives)任务。同时,我们还整合了部分印度语言的公开可用数据集,用于命名实体识别、跨语言句子检索、句子 paraphrase 检测等任务。 我们的词嵌入在多个任务上的表现优于或媲美现有的预训练嵌入模型。我们期望这些资源的公开发布能够推动印度语言NLP研究的发展,从而惠及超过十亿人口。同时,这些资源也有助于学术界在更丰富的语言多样性背景下评估自然语言处理技术的进展。相关数据与模型已开放获取,可通过 https://indicnlp.ai4bharat.org 获取。