vor 2 Monaten

Die Kunst der LLM-Verbesserung: Fragen, Verfeinern und Vertrauen

Kumar Shridhar; Koustuv Sinha; Andrew Cohen; Tianlu Wang; Ping Yu; Ram Pasunuru; Mrinmaya Sachan; Jason Weston; Asli Celikyilmaz

Details der Forschungsarbeit anzeigen

Die Kunst der LLM-Verbesserung: Fragen, Verfeinern und Vertrauen

Abstract

In den letzten Jahren haben große Sprachmodelle (Large Language Models, LLMs) bemerkenswerte generative Fähigkeiten gezeigt, aber können sie die Qualität ihrer eigenen Generierungen beurteilen? Ein beliebtes Konzept, als Selbstverfeinerung (self-refinement) bekannt, geht davon aus, dass LLMs Fehler in ihren Generierungen erkennen und korrigieren können, wenn sie dazu aufgefordert werden. Allerdings deuten jüngste empirische Befunde in eine andere Richtung und legen nahe, dass LLMs häufig Schwierigkeiten haben, Fehler korrekt zu identifizieren, wenn es um Schlussfolgerungen geht. Um dieses Problem anzugehen, schlagen wir ein Verfeinerungsziel vor, das als ART: Fragen, Verfeinern und Vertrauen (Ask, Refine, and Trust) bezeichnet wird. Dieses Ziel stellt notwendige Fragen, um zu entscheiden, wann ein LLM seine Ausgabe verfeinern sollte, und bewertet die Verfeinerung sowie die anfängliche Vorhersage, um entweder das Vertrauen in die Verfeinerung zu bestätigen oder zurückzuhalten. Bei zwei mehrstufigen Schlussfolgerungsaufgaben – mathematischen Textaufgaben (GSM8K) und Frage-Antwort-Aufgaben (StrategyQA) – erreicht ART einen Leistungszuwachs von +5 Punkten im Vergleich zu Baselines der Selbstverfeinerung und verwendet dabei ein viel kleineres Modell als Entscheidungsfindungsinstanz. Wir zeigen zudem den Vorteil der Nutzung kleinerer Modelle zur Entscheidungsfindung über Verfeinerungen als kosteneffektive Alternative zum Feinjustieren eines größeren Modells.