Command Palette
Search for a command to run...
Elisei Rykov Kseniia Petrushina Maksim Savkin Valerii Olisov Artem Vazhentsev Kseniia Titova Alexander Panchenko Vasily Konovalov Julia Belikova

摘要
幻觉检测仍是大语言模型(LLMs)安全可靠部署中的一个根本性挑战,尤其是在对事实准确性要求较高的应用场景中。现有的幻觉评估基准大多在序列层面进行,且仅限于英文,缺乏细粒度、多语言的标注监督,难以实现全面评估。在本研究中,我们提出了PsiloQA,这是一个大规模、多语言的标注数据集,涵盖14种语言的片段级幻觉标注。PsiloQA通过一个自动化的三阶段流程构建:首先利用GPT-4o从维基百科生成问答对;其次在无上下文环境下,通过多种大语言模型获取可能包含幻觉的回答;最后,借助GPT-4o,通过与标准答案及检索到的上下文进行比对,自动标注出幻觉片段。我们评估了多种幻觉检测方法——包括不确定性量化、基于大语言模型的标签识别以及微调的编码器模型——结果表明,基于编码器的模型在跨语言场景下均表现出最强的性能。此外,PsiloQA展现出良好的跨语言泛化能力,并能有效支持向其他基准数据集的知识迁移,同时其构建成本远低于人工标注数据集。我们的数据集与实验结果推动了多语言环境下可扩展、细粒度幻觉检测技术的发展。