4 个月前

自然语言处理

Elisei Rykov Kseniia Petrushina Maksim Savkin Valerii Olisov Artem Vazhentsev Kseniia Titova Alexander Panchenko Vasily Konovalov Julia Belikova

摘要

幻觉检测仍是大语言模型（LLMs）安全可靠部署中的一个根本性挑战，尤其是在对事实准确性要求较高的应用场景中。现有的幻觉评估基准大多在序列层面进行，且仅限于英文，缺乏细粒度、多语言的标注监督，难以实现全面评估。在本研究中，我们提出了PsiloQA，这是一个大规模、多语言的标注数据集，涵盖14种语言的片段级幻觉标注。PsiloQA通过一个自动化的三阶段流程构建：首先利用GPT-4o从维基百科生成问答对；其次在无上下文环境下，通过多种大语言模型获取可能包含幻觉的回答；最后，借助GPT-4o，通过与标准答案及检索到的上下文进行比对，自动标注出幻觉片段。我们评估了多种幻觉检测方法——包括不确定性量化、基于大语言模型的标签识别以及微调的编码器模型——结果表明，基于编码器的模型在跨语言场景下均表现出最强的性能。此外，PsiloQA展现出良好的跨语言泛化能力，并能有效支持向其他基准数据集的知识迁移，同时其构建成本远低于人工标注数据集。我们的数据集与实验结果推动了多语言环境下可扩展、细粒度幻觉检测技术的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

自然语言处理

Elisei Rykov Kseniia Petrushina Maksim Savkin Valerii Olisov Artem Vazhentsev Kseniia Titova Alexander Panchenko Vasily Konovalov Julia Belikova

摘要

幻觉检测仍是大语言模型（LLMs）安全可靠部署中的一个根本性挑战，尤其是在对事实准确性要求较高的应用场景中。现有的幻觉评估基准大多在序列层面进行，且仅限于英文，缺乏细粒度、多语言的标注监督，难以实现全面评估。在本研究中，我们提出了PsiloQA，这是一个大规模、多语言的标注数据集，涵盖14种语言的片段级幻觉标注。PsiloQA通过一个自动化的三阶段流程构建：首先利用GPT-4o从维基百科生成问答对；其次在无上下文环境下，通过多种大语言模型获取可能包含幻觉的回答；最后，借助GPT-4o，通过与标准答案及检索到的上下文进行比对，自动标注出幻觉片段。我们评估了多种幻觉检测方法——包括不确定性量化、基于大语言模型的标签识别以及微调的编码器模型——结果表明，基于编码器的模型在跨语言场景下均表现出最强的性能。此外，PsiloQA展现出良好的跨语言泛化能力，并能有效支持向其他基准数据集的知识迁移，同时其构建成本远低于人工标注数据集。我们的数据集与实验结果推动了多语言环境下可扩展、细粒度幻觉检测技术的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供