16 天前

DaCy:丹麦语自然语言处理的统一框架

Kenneth Enevoldsen, Lasse Hansen, Kristoffer Nielbo
DaCy:丹麦语自然语言处理的统一框架
摘要

近年来,丹麦语自然语言处理(NLP)领域取得了显著进展,得益于多个新数据集和模型的引入。然而,目前尚缺乏一个统一的框架来应用最先进的丹麦语NLP模型。为此,我们提出了DaCy:一个基于SpaCy构建的丹麦语NLP统一框架。DaCy采用高效的多任务模型,在命名实体识别、词性标注和依存句法分析等任务上均达到了当前最优性能。该框架还集成了多种工具,便于集成现有模型,例如用于情感极性、情绪识别或主观性检测的模型。此外,我们通过增强DaNE测试集,对丹麦语NLP流水线的偏见性和鲁棒性开展了一系列评估。结果显示,DaCy-large模型在各项指标上表现优异,尤其在处理长输入序列以及拼写变体和错误时展现出更强的鲁棒性。除DaCy-large外,其余所有模型均表现出与种族相关的显著偏见,而仅有Polyglot模型显示出显著的性别偏见。我们认为,对于基准数据集有限的语言而言,数据增强在获取更真实、更细粒度的性能评估方面具有特别重要的价值。为此,我们提供了一系列数据增强工具,作为迈向低资源和中资源语言模型更全面评估的初步步骤,并鼓励后续研究在该方向上进一步发展。