
摘要
尽管无监督深度神经网络在计算机视觉和自然语言处理任务中取得了令人印象深刻的改进,但在信息检索的排序任务中尚未观察到类似的进展。原因可能是排序问题的复杂性,因为在没有监督信号的情况下,如何从查询和文档中学习并不明显。因此,在本文中,我们提出了一种使用弱监督训练神经排序模型的方法,其中标签是通过自动方式获得的,无需人工标注者或任何外部资源(例如点击数据)。为此,我们将无监督排序模型(如BM25)的输出作为弱监督信号。我们进一步基于前馈神经网络训练了一系列简单而有效的排序模型。我们在不同的学习场景下(点对点和成对模型)以及使用不同的输入表示方法(即从将查询-文档对编码为密集/稀疏向量到使用词嵌入表示)研究了这些模型的有效性。我们使用数千万个训练实例来训练网络,并在两个标准集合上进行了评估:一个同质新闻集合(Robust)和一个异质大规模网页集合(ClueWeb)。实验结果表明,采用适当的损失函数并让网络根据弱监督数据学习输入表示可以显著提高性能,在Robust和ClueWeb集合上分别比BM25模型提高了超过13%和35%的MAP值。我们的研究还表明,监督神经排序模型可以从大量容易获取的弱标签数据预训练中获益匪浅。