HyperAIHyperAI

Command Palette

Search for a command to run...

Console

H-神经元:关于LLM中与幻觉相关的神经元的存在性、影响及其起源

Cheng Gao Huimin Chen Chaojun Xiao Zhiyi Chen Zhiyuan Liu Maosong Sun

Abstract

大型语言模型(LLMs)经常产生幻觉——即看似合理但事实错误的输出——这严重削弱了其可靠性。尽管以往研究已从训练数据和目标等宏观视角探讨过幻觉现象,但其底层的神经元级机制仍鲜有深入探索。本文从三个维度对大型语言模型中的幻觉相关神经元(H-Neurons)进行了系统性研究:识别、行为影响及其起源。在识别方面,我们发现仅占总神经元数量不足0.1%的极少数神经元即可可靠预测幻觉的发生,且在多种不同场景下均表现出强泛化能力。在行为影响方面,通过可控干预实验表明,这些神经元与模型的过度遵从行为存在因果关联。在起源分析方面,我们追溯发现这些神经元源自预训练的基础模型,并且在后续任务中仍保持对幻觉检测的预测能力,表明其在预训练阶段即已形成。本研究将宏观层面的行为模式与微观层面的神经机制相连接,为构建更加可靠的大型语言模型提供了重要启示。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供