
摘要
在本文中,我们探讨了从无标签文档数据集中使用无监督方法检索具有预定义主题的文档的任务。所提出的无监督方法仅需要少量描述相应主题的关键词,而无需任何已标记的文档。现有的方法要么严重依赖大量额外编码的世界知识,要么依赖词项-文档频率。相比之下,我们引入了一种方法,该方法仅从无标签文档数据集中学习联合嵌入的文档和词向量,以找到与关键词描述的主题在语义上相似的文档。所提出的方法几乎不需要进行文本预处理,但同时能够以高概率有效地检索相关文档。在从公开可用且常用的数据集中连续检索不同预定义主题的文档时,我们在一个数据集上达到了接收者操作特征曲线下的平均面积值为0.95,在另一个数据集上为0.92。此外,我们的方法可以用于多类文档分类,而无需事先对数据集进行标签分配。与无监督分类基线相比,我们在相应数据集上的F1分数分别从76.6提高到82.7和从61.0提高到75.1。为了便于复制我们的方法,我们将开发的Lbl2Vec代码作为现成工具公开发布,并采用3条款BSD许可证(3-Clause BSD license)。