HyperAIHyperAI

Command Palette

Search for a command to run...

H-Neuronen: Über das Vorhandensein, die Wirkung und den Ursprung von Halluzinationsassoziierten Neuronen in LLMs

Cheng Gao Huimin Chen Chaojun Xiao Zhiyi Chen Zhiyuan Liu Maosong Sun

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) erzeugen häufig Halluzinationen – plausibel klingende, aber faktisch falsche Ausgaben –, was ihre Zuverlässigkeit erheblich beeinträchtigt. Während vorangegangene Arbeiten Halluzinationen aus makroskopischen Perspektiven wie Trainingsdaten und Zielsetzungen untersucht haben, bleiben die zugrundeliegenden neuronalen Mechanismen auf der Ebene einzelner Neuronen weitgehend unerforscht. In dieser Arbeit führen wir eine systematische Untersuchung von halluzinationsassoziierten Neuronen (H-Neuronen) in LLMs aus drei Perspektiven durch: Identifizierung, Verhaltenswirkung und Entstehung. Bei der Identifizierung zeigen wir, dass eine erstaunlich spärliche Untergruppe von Neuronen (weniger als 0,1 % aller Neuronen) zuverlässig die Entstehung von Halluzinationen vorhersagen kann und dabei eine starke Generalisierbarkeit über unterschiedliche Szenarien hinweg aufweist. In Bezug auf die Verhaltenswirkung ergeben kontrollierte Eingriffe, dass diese Neuronen kausal mit übermäßiger Compliance-Verhaltensweisen verknüpft sind. In Bezug auf ihre Entstehung verfolgen wir die Neuronen bis zurück zu den vortrainierten Basismodellen und stellen fest, dass diese Neuronen auch nach der Fine-Tuning-Phase weiterhin prädiktiv für die Erkennung von Halluzinationen sind, was darauf hindeutet, dass sie bereits während des Vortrainings entstehen. Unsere Ergebnisse verbinden makroskopische Verhaltensmuster mit mikroskopischen neuronalen Mechanismen und liefern wertvolle Erkenntnisse für die Entwicklung zuverlässigerer LLMs.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp