
摘要
如今,监督式系统已成为词义消歧(Word Sense Disambiguation, WSD)的标准方法,其核心组件通常为基于Transformer的语言模型。然而,尽管这些系统已取得前所未有的性能,几乎所有现有方法都依赖于一个限制性假设:在给定上下文的前提下,每个词的词义消歧可独立进行,而无需考虑其他词语的词义选择。为克服这一局限并摒弃该假设,本文提出一种全新的WSD方法——连续词义理解(CONtinuous SEnse Comprehension, ConSeC)。该方法基于近期将WSD重新定义为文本抽取任务的范式,将其适配至我们的建模框架,并引入一种反馈机制,使得目标词的消歧不仅依赖于其上下文,还可显式依赖于邻近词语所分配的词义。我们在英文WSD任务上对ConSeC进行了全面评估,分析其各组成部分的作用,结果表明其显著超越所有现有方法,刷新了该任务的最新技术水平。此外,我们进一步考察了ConSeC在跨语言场景下的表现,涵盖八种语言,覆盖从资源丰富到资源匮乏的不同语言类型,实验结果表明其在多数情况下均显著优于先前系统。相关代码已开源,地址为:https://github.com/SapienzaNLP/consec。