2 个月前

COVID-19 越南语命名实体识别

Thinh Hung Truong; Mai Hoang Dao; Dat Quoc Nguyen
COVID-19 越南语命名实体识别
摘要

当前的COVID-19大流行已促使许多语料库的创建,这些语料库有助于自然语言处理(NLP)研究和下游应用,以助力抗击大流行。然而,大多数这些语料库仅限于英语。鉴于大流行是一个全球性问题,为其他语言创建COVID-19相关数据集是值得的。在本文中,我们介绍了首个针对越南语的手动标注COVID-19领域特定数据集。特别是,我们的数据集针对命名实体识别(NER)任务进行了标注,并定义了新的实体类型,这些类型可以在未来的疫情中使用。与现有的越南语NER数据集相比,我们的数据集包含最多的实体数量。我们在该数据集上使用强大的基线模型进行了实证实验,并发现:自动越南语分词有助于提高NER结果,通过微调预训练语言模型获得的最佳性能中,单语模型PhoBERT(Nguyen和Nguyen, 2020)的表现优于多语言模型XLM-R(Conneau等, 2020)。我们已公开发布该数据集,地址为:https://github.com/VinAIResearch/PhoNER_COVID19

COVID-19 越南语命名实体识别 | 最新论文 | HyperAI超神经