
摘要
词语义项归纳(Word Sense Induction, WSI),即自动发现一个词的多个意义的任务,面临三个主要挑战:领域适应性、新义项检测和义项粒度灵活性。尽管当前的潜在变量模型已知能够解决前两个挑战,但它们在不同词语义项粒度方面缺乏灵活性,而这些粒度在不同词语之间差异很大,从只有一个义项的“土豚”到有超过50个义项的“玩”。目前的模型要么需要超参数调整,要么需要非参数化的义项数量推断,我们发现这两种方法都不够有效。因此,我们提出了一种基于两个观察结果的新模型——AutoSense,旨在消除这些需求并解决义项粒度问题:(1) 义项可以表示为话题上的分布;(2) 义项生成目标词与其邻近词之间的配对。这两个观察结果通过以下方式缓解了问题:(a) 消除无用的义项;(b) 进一步诱导出细粒度的词语义项。实验结果显示,在流行的WSI数据集上,AutoSense相比现有最先进模型取得了显著改进。此外,我们还证明了AutoSense能够学习到一个词的适当义项粒度。最后,我们将AutoSense应用于无监督作者姓名消歧任务,在该任务中义项粒度问题更为明显,并展示了AutoSense明显优于其他竞争模型。我们的数据和代码共享在此处:https://github.com/rktamplayo/AutoSense。