Hニューロン:大規模言語モデルにおける幻覚関連ニューロンの存在、影響および起源について
Hニューロン:大規模言語モデルにおける幻覚関連ニューロンの存在、影響および起源について
Cheng Gao Huimin Chen Chaojun Xiao Zhiyi Chen Zhiyuan Liu Maosong Sun
Abstract
大規模言語モデル(LLM)は、根拠のないが説得力のある誤った出力を頻繁に生成する「幻覚(hallucination)」を引き起こすことがあり、その信頼性を損なう要因となっている。これまでの研究では、訓練データや目的関数といったマクロな視点から幻覚の原因が検討されてきたが、ニューロンレベルにおける裏側のメカニズムについてはほとんど解明されていない。本論文では、幻覚関連ニューロン(H-Neuron)について、識別、行動への影響、起源の三つの観点から体系的な調査を行う。識別に関しては、全ニューロンの0.1%未満という極めて稀なニューロン群が、多様な状況においても幻覚の発生を信頼性高く予測できることを示した。行動への影響に関しては、制御された干渉実験により、これらのニューロンが過剰な従順性(over-compliance)行動と因果関係にあることを明らかにした。起源に関しては、これらのニューロンが事前学習済みのベースモデルに遡ることができ、幻覚検出においても依然として予測能力を保持していることから、幻覚関連ニューロンは事前学習段階で出現したことが示された。本研究の成果は、マクロな行動パターンとミクロな神経メカニズムを橋渡しするものであり、より信頼性の高いLLMの開発に向けた知見を提供する。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.