2 个月前

PARADE:文档重排序中的段落表示聚合

Canjia Li; Andrew Yates; Sean MacAvaney; Ben He; Yingfei Sun
PARADE:文档重排序中的段落表示聚合
摘要

预训练的变压器模型(如BERT和T5)在临时文档和段落排序方面表现出色。由于这些模型固有的序列长度限制,它们需要对文档中的各个段落进行处理,而不是一次性处理整个文档序列。尽管已经提出了几种聚合段落级信号的方法,但尚未对这些技术进行全面比较。在这项工作中,我们探讨了将文档中各段落的相关性信号聚合为最终排名分数的策略。研究发现,段落表示聚合技术可以显著优于先前提出的技术,例如取最大段落得分。我们将这种新方法称为PARADE(Passage Representation Aggregation for Document Ensemble)。特别是,在信息需求广泛且相关性信号可能分散在整个文档中的集合上(如TREC Robust04和GOV2),PARADE可以显著提高结果。而在信息需求通常可以定位到单个段落的集合上(如TREC DL和TREC Genomics),较为简单的聚合技术可能表现更好。此外,我们还进行了效率分析,并强调了几种改进基于变压器的聚合策略的方法。

PARADE:文档重排序中的段落表示聚合 | 最新论文 | HyperAI超神经