HyperAI超神经

长上下文语言模型的可控性测试

Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov
发布日期: 6/5/2025
长上下文语言模型的可控性测试
摘要

现有的长上下文语言模型(LCLM)评估框架大致可以分为现实任务和合成任务两类。尽管这些方法具有一定的实用性,但它们各自都存在一些固有的局限性。现实任务过于复杂,难以解释或描述,并且容易受到数据污染的影响。相比之下,合成任务通常采用“大海捞针”(Needle-in-the-Haystack, NIAH)的形式,其中“针”与“草堆”之间的缺乏连贯性削弱了其作为真实应用场景代理的有效性。针对这些挑战,我们认为理想的长上下文评估框架应具备三个基本特征:无缝上下文、可控环境和可靠的评估。本研究引入了一种新的基准测试工具——LongBioBench,该工具利用人工生成的传记作为受控环境,从理解、推理和可信度等多个维度对LCLM进行评估。我们的实验评估包括总共18个LCLM模型,结果表明大多数模型在语义理解和检索结果的基本推理方面仍存在不足,并且随着上下文长度的增加,其可信度逐渐降低。进一步分析显示,现有合成基准中的一些设计选择,如上下文不连贯、数值型“针”以及缺少干扰项等,使得这些基准在测试模型长上下文能力时显得脆弱。此外,我们还发现长上下文持续预训练主要通过调整RoPE嵌入来适应更长的上下文长度。综上所述,与之前的合成基准相比,LongBioBench在模拟真实语言任务和保持可控性之间实现了更好的平衡,并且具有高度的可解释性和可配置性。