
摘要
我们提出了一种利用平行语料库进行跨语言命名实体识别(NER)零样本迁移的新方法。我们在XLM-RoBERTa的基础上构建了一个实体对齐模型,该模型可以将平行数据中英语部分检测到的实体投影到目标语言句子上,其准确性超过了所有先前的无监督模型。通过这个对齐模型,我们可以获得目标语言的伪标记NER数据集,用于训练特定任务的模型。与使用翻译方法不同,这种方法能够从目标语言原始语料库中的自然流畅性和细微差别中受益。我们还提出了一种类似于焦点损失但权重分配方向相反的修改后的损失函数,以进一步提高在噪声伪标记数据集上的模型训练效果。我们在基准数据集上对4种目标语言进行了评估,获得了与最新SOTA模型相当的竞争性F1分数。此外,我们还详细讨论了平行语料库规模和领域对最终迁移性能的影响。