16 天前
从神经重排序到神经排序:学习稀疏表示以实现倒排索引
{Erik Learned-Miller, W. Bruce Croft, Mostafa Dehghani, Hamed Zamani, and Jaap Kamps}

摘要
大规模数据与计算能力的可用性,使得数据驱动的神经网络方法在机器学习与信息检索研究中产生了深远影响。然而,这类模型在效率方面存在根本性问题。当前的神经排序模型通常采用多阶段排序架构:出于效率考虑,神经模型仅对第一阶段高效排序器返回的顶层文档进行重新排序。由于神经排序模型学习的是密集表示,导致几乎每个查询词都与每个文档词产生匹配,因此对整个文档集合进行排序在计算上极为低效甚至不可行。这种依赖第一阶段排序器的机制带来了双重问题:其一,查询与文档之间的交互与融合机制尚不清晰;其二,第一阶段排序器充当“守门人”或过滤器角色,实质上限制了神经模型发现新相关文档的潜力。在本研究中,我们提出一种独立运行的神经排序模型(Standalone Neural Ranking Model, SNRM),通过引入稀疏性特性,为每个查询和文档学习潜在的稀疏表示。该表示能够捕捉查询与文档之间的语义关联,同时保持足够的稀疏性,从而支持在整个文档集合上构建倒排索引。我们对模型的稀疏性进行参数化控制,使其检索效率达到与传统基于词项的模型相当的水平。该模型在不牺牲效果的前提下显著提升了效率:不仅优于现有的词项匹配基线模型,且在性能上可与近期基于密集表示的重排序神经模型相媲美。此外,我们的模型还能有效利用伪相关反馈机制实现进一步性能提升。更广泛而言,本研究揭示了稀疏性在神经信息检索(Neural IR)模型中的关键作用,表明密集表示可通过有效剪枝实现压缩,为理解核心语义特征及其分布提供了新的视角。