
摘要
多年来,自然语言处理领域一直面临一个难题:即使在上下文信息的帮助下,一个词语内部仍可能混合多种语义,导致语义歧义。为解决这一问题,我们提出了一种棱镜模块(prism module),用于解耦词语的多方面语义,并在模型输入层有效降低噪声。在该模块中,部分词语会被选择性地替换为与特定任务相关的语义成分,从而生成去噪后的词表示,进而更高效地输入到下游任务中。此外,我们还设计了一种联合训练机制,可在不依赖额外数据的情况下,将该模块与下游模型协同训练。该模块可轻松集成至下游模型中,在命名实体识别(Named Entity Recognition, NER)任务上显著提升基线模型的性能。消融实验验证了该方法的合理性。作为附带优势,该方法还提供了一种可视化每个词对最终结果贡献程度的途径。