17 天前

用于代码切换命名实体识别的分层元嵌入

Genta Indra Winata, Zhaojiang Lin, Jamin Shin, Zihan Liu, Pascale Fung
用于代码切换命名实体识别的分层元嵌入
摘要

在使用多种主要语言的国家中,对话过程中混合使用不同语言的现象通常被称为“代码转换”(code-switching)。以往针对该问题的研究主要集中在词级层面,例如词嵌入(word embeddings)的处理。然而,在许多情况下,不同语言之间共享相同的子词单元,尤其是语系相近的语言,甚至在看似无关的语言之间也存在此类共享现象。为此,我们提出了一种分层元嵌入模型(Hierarchical Meta-Embeddings, HME),该模型能够融合多种单语的词级与子词级嵌入,从而构建与语言无关的词汇表征。在英语-西班牙语代码转换数据上的命名实体识别任务中,我们的模型在多语言设置下达到了当前最优的性能表现。此外,我们在跨语言设置下进一步验证了该模型不仅能够有效利用语系相近的语言,还能从语源迥异的语言中学习到有用信息。最后,我们证明了整合不同粒度的子单元对于准确捕捉代码转换实体至关重要。