3 天前
PRELUDE:一个旨在要求对长上下文进行全局理解与推理的基准
Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou

摘要
我们提出了 PRELUDE,这是一个通过判断角色前传故事是否与原著经典叙事一致来评估长上下文理解能力的基准测试。与现有基准相比,该任务对全局理解与深度推理能力提出了更高要求——由于前传并非原著故事的一部分,评估其合理性通常需要检索并整合那些仅具有间接关联的信息。实证研究表明,88% 的测试实例需要来自叙事多个部分的证据。实验结果凸显了该任务的挑战性:即使采用最先进的大语言模型进行上下文学习、检索增强生成(RAG)、领域内微调,以及商用 DeepResearch 服务,其表现仍比人类低超过 15%。进一步的人类研究发现,模型虽常能给出正确答案,但推理过程往往存在缺陷,导致其推理准确率相较于人类高出超过 30% 的差距。这些发现表明,当前在长上下文理解与推理能力方面仍存在巨大的提升空间。