HyperAI超神经

明天还会是真的吗?多语言常青问题分类以提高可信问答

Pletenev, Sergey ; Marina, Maria ; Ivanov, Nikolay ; Galimzianova, Daria ; Krayko, Nikita ; Salnikov, Mikhail ; Konovalov, Vasily ; Panchenko, Alexander ; Moskvoretskii, Viktor
发布日期: 6/9/2025
明天还会是真的吗?多语言常青问题分类以提高可信问答
摘要

大型语言模型(LLMs)在问答(QA)任务中经常出现幻觉现象。一个关键但尚未充分研究的因素是问题的时间属性——即问题是常青的(答案随时间保持稳定)还是可变的(答案随时间变化)。在这项工作中,我们引入了EverGreenQA,这是首个带有常青标签的多语言问答数据集,支持评估和训练。利用EverGreenQA,我们对12种现代大型语言模型进行了基准测试,以评估它们是否显式地(通过口头判断)或隐式地(通过不确定性信号)编码了问题的时间属性。此外,我们还训练了一个轻量级的多语言分类器EG-E5,在该任务上达到了当前最佳性能。最后,我们展示了常青分类在三个应用中的实际效用:改进自我知识估计、过滤问答数据集以及解释GPT-4o的检索行为。