
摘要
随着过去十年文本数据量的迅速增长,高效的相似性搜索方法已成为大规模信息检索系统的关键组成部分。一种流行的方法是通过哈希将原始数据样本表示为紧凑的二进制代码。尽管已经应用了多种机器学习方法,但它们在建模时往往缺乏表达能力和灵活性,难以学习到有效的表示。近年来,深度学习在广泛的应用中展示了其学习复杂数据的强大和鲁棒特征表示的能力。特别是,深度生成模型自然地结合了概率生成模型的表达能力和深度神经网络的高容量,非常适合用于文本建模。然而,很少有研究利用深度学习的最新进展来进行文本哈希。本文提出了一系列新颖的深度文档生成模型用于文本哈希。第一个提出的模型是无监督的,而第二个模型则通过利用文档标签/类别进行监督哈希。第三个模型进一步考虑了影响单词生成的文档特定因素。所提出的模型的概率生成公式提供了一个原则性的框架,适用于模型扩展、不确定性估计、模拟和解释。基于变分推理和重参数化技术,所提出的模型可以被解释为编码器-解码器深度神经网络结构,因此它们能够学习原始文档的复杂非线性分布式表示。我们在四个公开的数据集上进行了全面的实验。实验结果表明,所提出的监督学习模型在文本哈希方面具有有效性。