
摘要
长文本问答(Long-Form Question Answering, LFQA)任务要求检索与给定问题相关的文档,并基于这些文档生成一段长度适中的回答。尽管近年来已有诸多模型被提出用于LFQA,本文指出,该任务的设定本身带来了评估与数据集构建方面的根本性挑战,这些挑战目前严重阻碍了有意义的模型进展。为揭示上述问题,我们首先设计了一种新系统,该系统基于稀疏注意力机制与对比式检索学习,在ELI5 LFQA数据集上取得了当前最优性能。尽管该系统在公开排行榜上位居榜首,但深入分析揭示了若干令人担忧的趋势:(1)系统生成的答案实际上并未基于其所检索到的文档内容,缺乏事实依据;(2)ELI5数据集中存在显著的训练集与验证集重叠问题,至少81%的验证集问题在训练集中以改写(paraphrased)形式出现;(3)ROUGE-L指标对生成答案质量的评估缺乏有效性,且极易被人为操纵;(4)以往用于其他文本生成任务的人工评估方法在LFQA任务中可靠性不足。针对上述每一项问题,本文提出了相应的改进建议,旨在推动LFQA研究走向更加严谨的范式,从而在未来实现真正有意义的进展。