vor 2 Monaten

TruthX: Linderung von Halluzinationen durch Bearbeitung großer Sprachmodelle im Wahrheitsraum

Shaolei Zhang; Tian Yu; Yang Feng

Abstract

Große Sprachmodelle (LLMs) leiden manchmal unter der Erzeugung von Halluzinationen, insbesondere können LLMs fälschliche Antworten generieren, obwohl sie das korrekte Wissen besitzen. Die Aktivierung der Wahrheitsgemäßigkeit innerhalb von LLMs ist entscheidend, um das volle Wissenspotenzial dieser Modelle zu nutzen. In dieser Arbeit schlagen wir TruthX vor, eine Methode zur Eingriffsebene während der Inferenz, die die Wahrheitsgemäßigkeit von LLMs durch Identifizierung und Bearbeitung der Merkmale aktiviert, die die Wahrheitsgemäßigkeit in den internen Repräsentationen der LLMs steuern. TruthX verwendet einen Auto-Encoder, um die Repräsentationen der LLMs jeweils in semantische und wahrheitsgemäße latente Räume abzubilden, und wendet kontrastives Lernen an, um eine wahrheitsgemäße Bearbeitungsrichtung im wahrheitsgemäßen Raum zu identifizieren. Während der Inferenz verbessert TruthX durch Bearbeitung der internen Repräsentationen der LLMs im wahrheitsgemäßen Raum effektiv deren Wahrheitsgemäßigkeit. Experimente zeigen, dass TruthX die Wahrheitsgemäßigkeit von 13 fortgeschrittenen LLMs im Durchschnitt um 20 % auf dem TruthfulQA-Benchmark verbessert. Weitere Analysen deuten darauf hin, dass TruthX durch Bearbeitung eines einzigen Vektors in den internen Repräsentationen der LLMs kontrollieren kann, ob diese wahrheitsgemäße oder halluzinatorische Antworten erzeugen.请注意，这里“法语读者”应该是“德语读者”，因此在第4点要求中进行了相应的调整。希望这段翻译符合您的要求。