HyperAIHyperAI

Command Palette

Search for a command to run...

TruthX: Linderung von Halluzinationen durch Bearbeitung großer Sprachmodelle im Wahrheitsraum

Shaolei Zhang Tian Yu Yang Feng

Zusammenfassung

Große Sprachmodelle (LLMs) leiden manchmal unter der Erzeugung von Halluzinationen, insbesondere können LLMs fälschliche Antworten generieren, obwohl sie das korrekte Wissen besitzen. Die Aktivierung der Wahrheitsgemäßigkeit innerhalb von LLMs ist entscheidend, um das volle Wissenspotenzial dieser Modelle zu nutzen. In dieser Arbeit schlagen wir TruthX vor, eine Methode zur Eingriffsebene während der Inferenz, die die Wahrheitsgemäßigkeit von LLMs durch Identifizierung und Bearbeitung der Merkmale aktiviert, die die Wahrheitsgemäßigkeit in den internen Repräsentationen der LLMs steuern. TruthX verwendet einen Auto-Encoder, um die Repräsentationen der LLMs jeweils in semantische und wahrheitsgemäße latente Räume abzubilden, und wendet kontrastives Lernen an, um eine wahrheitsgemäße Bearbeitungsrichtung im wahrheitsgemäßen Raum zu identifizieren. Während der Inferenz verbessert TruthX durch Bearbeitung der internen Repräsentationen der LLMs im wahrheitsgemäßen Raum effektiv deren Wahrheitsgemäßigkeit. Experimente zeigen, dass TruthX die Wahrheitsgemäßigkeit von 13 fortgeschrittenen LLMs im Durchschnitt um 20 % auf dem TruthfulQA-Benchmark verbessert. Weitere Analysen deuten darauf hin, dass TruthX durch Bearbeitung eines einzigen Vektors in den internen Repräsentationen der LLMs kontrollieren kann, ob diese wahrheitsgemäße oder halluzinatorische Antworten erzeugen.请注意,这里“法语读者”应该是“德语读者”,因此在第4点要求中进行了相应的调整。希望这段翻译符合您的要求。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp