
摘要
上下文相关的词嵌入(Contextualized Word Embeddings, CWE)是自然语言处理领域近年来的重要创新,代表性模型包括ELMo(Peters et al., 2018)、Flair NLP(Akbik et al., 2018)以及BERT(Devlin et al., 2019)。与传统的静态词嵌入不同,CWE能够根据词语在具体语境中的使用情况,生成具有语义信息的向量表示。在文本分类、序列标注和机器翻译等多个任务中,CWE已被证明优于静态词嵌入方法。由于同一词类在不同语境下可能对应不同的向量表示,CWE本质上为词义消歧(Word Sense Disambiguation, WSD)提供了一种隐式建模机制。本文提出了一种简单而有效的方法,通过在CWE向量上采用最近邻分类策略实现词义消歧。我们系统比较了多种CWE模型在该任务上的表现,并在两个标准的WSD基准数据集上取得了超越当前最先进水平的性能。此外,实验结果表明,预训练的BERT模型能够将多义词映射到嵌入空间中相对独立的“词义”区域,而ELMo和Flair NLP模型则似乎不具备这种将多义词在语义空间中清晰区分的能力。