H-Neuronen: Über das Vorhandensein, die Wirkung und den Ursprung von Halluzinationsassoziierten Neuronen in LLMs
H-Neuronen: Über das Vorhandensein, die Wirkung und den Ursprung von Halluzinationsassoziierten Neuronen in LLMs
Cheng Gao Huimin Chen Chaojun Xiao Zhiyi Chen Zhiyuan Liu Maosong Sun
Abstract
Große Sprachmodelle (Large Language Models, LLMs) erzeugen häufig Halluzinationen – plausibel klingende, aber faktisch falsche Ausgaben –, was ihre Zuverlässigkeit erheblich beeinträchtigt. Während vorangegangene Arbeiten Halluzinationen aus makroskopischen Perspektiven wie Trainingsdaten und Zielsetzungen untersucht haben, bleiben die zugrundeliegenden neuronalen Mechanismen auf der Ebene einzelner Neuronen weitgehend unerforscht. In dieser Arbeit führen wir eine systematische Untersuchung von halluzinationsassoziierten Neuronen (H-Neuronen) in LLMs aus drei Perspektiven durch: Identifizierung, Verhaltenswirkung und Entstehung. Bei der Identifizierung zeigen wir, dass eine erstaunlich spärliche Untergruppe von Neuronen (weniger als 0,1 % aller Neuronen) zuverlässig die Entstehung von Halluzinationen vorhersagen kann und dabei eine starke Generalisierbarkeit über unterschiedliche Szenarien hinweg aufweist. In Bezug auf die Verhaltenswirkung ergeben kontrollierte Eingriffe, dass diese Neuronen kausal mit übermäßiger Compliance-Verhaltensweisen verknüpft sind. In Bezug auf ihre Entstehung verfolgen wir die Neuronen bis zurück zu den vortrainierten Basismodellen und stellen fest, dass diese Neuronen auch nach der Fine-Tuning-Phase weiterhin prädiktiv für die Erkennung von Halluzinationen sind, was darauf hindeutet, dass sie bereits während des Vortrainings entstehen. Unsere Ergebnisse verbinden makroskopische Verhaltensmuster mit mikroskopischen neuronalen Mechanismen und liefern wertvolle Erkenntnisse für die Entwicklung zuverlässigerer LLMs.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.