HyperAIHyperAI
vor 5 Tagen

TruthRL: Anreizschaffung für ehrliche LLMs mittels Verstärkungslernen

Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong
TruthRL: Anreizschaffung für ehrliche LLMs mittels Verstärkungslernen
Abstract

Obwohl große Sprachmodelle (LLMs) bei der Beantwortung von Faktenfragen starke Leistungen erbracht haben, neigen sie weiterhin zu Halluzinationen und unrichtigen Antworten, insbesondere dann, wenn Aufgaben Informationen erfordern, die über ihr parametrisches Wissen hinausgehen. Tatsächlich erfordert Wahrhaftigkeit mehr als nur Genauigkeit: Modelle müssen zudem Unsicherheit erkennen und sich bei Unkenntnis zurückhalten, um Halluzinationen zu vermeiden. Dies stellt eine grundlegende Herausforderung für bestehende Ansätze dar: Methoden, die auf Genauigkeit optimiert sind, verstärken oft Halluzinationen, während solche, die Zurückhaltung fördern, übermäßig konservativ werden und korrekte Antworten opfern. Beide Extrempositionen schädigen letztendlich die Wahrhaftigkeit. In dieser Arbeit präsentieren wir TruthRL, einen allgemeinen Rahmen basierend auf Verstärkendem Lernen (Reinforcement Learning, RL), der die Wahrhaftigkeit von LLMs direkt optimiert. Konkret implementieren wir TruthRL mittels GRPO (Generalized Reward Policy Optimization) mit einer einfachen, aber effektiven dreistufigen Belohnung, die korrekte Antworten, Halluzinationen und Zurückhaltung unterscheidet. Dieser Ansatz motiviert die Modelle, Halluzinationen nicht nur durch Bereitstellung korrekter Antworten zu reduzieren, sondern auch durch die Möglichkeit, sich bei Unsicherheit zurückzuhalten, wodurch die Wahrhaftigkeit insgesamt verbessert wird. Umfangreiche Experimente an vier wissensintensiven Benchmarks zeigen, dass TruthRL im Vergleich zu herkömmlichem RL die Halluzinationen um 28,9 % reduziert und die Wahrhaftigkeit um 21,1 % steigert, wobei konsistente Verbesserungen für verschiedene Grundmodelle (z. B. Qwen, Llama) sowohl im Retrieval- als auch im Nicht-Retrieval-Setup erzielt werden. Eine detaillierte Ablationsstudie belegt, dass herkömmliche, auf Genauigkeit ausgerichtete Methoden wie überwachtes Feinjustieren oder RL mit binärer Belohnung Schwierigkeiten haben, Faktenkorrektheit und Unsicherheitsbewusstsein auszugleichen. Im Gegensatz dazu erreicht unser vorgeschlagener, wahrheitsorientierter Ansatz TruthRL eine hohe Leistung sowohl in Bezug auf Genauigkeit als auch auf Wahrhaftigkeit und unterstreicht damit die entscheidende Bedeutung der Zielsetzung bei der Entwicklung verlässlicher LLMs.