Command Palette

Search for a command to run...

16 天前

当模型说谎时,我们得以学习:基于PsiloQA的多语言跨度级幻觉检测

Elisei Rykov Kseniia Petrushina Maksim Savkin Valerii Olisov Artem Vazhentsev Kseniia Titova Alexander Panchenko Vasily Konovalov Julia Belikova

当模型说谎时,我们得以学习:基于PsiloQA的多语言跨度级幻觉检测

摘要

幻觉检测仍是大语言模型(LLMs)安全可靠部署中的一个根本性挑战,尤其是在对事实准确性要求较高的应用场景中。现有的幻觉评估基准大多在序列层面进行,且仅限于英文,缺乏细粒度、多语言的标注监督,难以实现全面评估。在本研究中,我们提出了PsiloQA,这是一个大规模、多语言的标注数据集,涵盖14种语言的片段级幻觉标注。PsiloQA通过一个自动化的三阶段流程构建:首先利用GPT-4o从维基百科生成问答对;其次在无上下文环境下,通过多种大语言模型获取可能包含幻觉的回答;最后,借助GPT-4o,通过与标准答案及检索到的上下文进行比对,自动标注出幻觉片段。我们评估了多种幻觉检测方法——包括不确定性量化、基于大语言模型的标签识别以及微调的编码器模型——结果表明,基于编码器的模型在跨语言场景下均表现出最强的性能。此外,PsiloQA展现出良好的跨语言泛化能力,并能有效支持向其他基准数据集的知识迁移,同时其构建成本远低于人工标注数据集。我们的数据集与实验结果推动了多语言环境下可扩展、细粒度幻觉检测技术的发展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供