2 个月前
ShotgunWSD:一种受DNA测序启发的全局词义消歧无监督算法
Andrei M. Butnaru; Radu Tudor Ionescu; Florentina Hristea

摘要
本文提出了一种新颖的无监督算法,用于文档级别的词语义消歧(Word Sense Disambiguation, WSD)。该算法受到遗传学领域广泛使用的全基因组测序方法——鸟枪法测序技术(Shotgun sequencing technique)的启发。所提出的WSD算法基于三个主要步骤。首先,对从文档中选择的短上下文窗口(最多10个词)应用一种暴力WSD算法,以生成每个窗口可能的义项配置的简短列表。在第二步中,这些局部义项配置通过后缀和前缀匹配被组装成长的复合配置。生成的配置按长度排序,每个词的意义则根据投票方案确定,该方案仅考虑出现该词的前k个配置。我们将该算法与其他最先进的无监督WSD算法进行了比较,并展示了其优越性能,有时甚至有显著的优势。我们还证明了在某个数据集上,我们的算法可以优于最常见的意义(Most Common Sense, MCS)基线方法。此外,我们的算法参数非常少,对参数调整具有鲁棒性,并且与其它生物启发方法不同的是,它提供了一个确定性的解决方案(不涉及随机选择)。