HyperAIHyperAI
vor 11 Tagen

Zur Selbstverbesserung von LLMs durch Phantasie, Suche und Kritik

Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu
Zur Selbstverbesserung von LLMs durch Phantasie, Suche und Kritik
Abstract

Trotz der beeindruckenden Fähigkeiten großer Sprachmodelle (Large Language Models, LLMs) bei einer Vielzahl von Aufgaben stoßen sie weiterhin an Grenzen bei Szenarien, die komplexe Schlussfolgerungen und Planung erfordern. Kürzlich vorgeschlagene Ansätze zur Verbesserung der Schlussfolgerungsfähigkeit von LLMs basieren auf fortgeschrittenen Prompting-Techniken und der Feinabstimmung mit hochwertigen Daten. Diese Ansätze sind jedoch inhärent durch die Verfügbarkeit und Qualität von Daten begrenzt. In diesem Kontext erweisen sich Selbstkorrektur und Selbstlernen als vielversprechende Lösungen, da sie Strategien nutzen, die es LLMs ermöglichen, ihre Ausgaben zu verfeinern und aus selbstbewerteten Belohnungen zu lernen. Dennoch bleibt die Wirksamkeit von LLMs bei der Selbstverbesserung ihrer Antworten – insbesondere bei anspruchsvollen Aufgaben der Schlussfolgerung und Planung – umstritten. In diesem Paper stellen wir AlphaLLM vor, ein System zur Selbstverbesserung von LLMs, das den Monte-Carlo-Baum-Suchalgorithmus (Monte Carlo Tree Search, MCTS) mit LLMs verbindet, um eine selbstverbessernde Schleife zu etablieren und die Fähigkeiten von LLMs ohne zusätzliche Annotationen zu erhöhen. Inspiriert durch den Erfolg von AlphaGo löst AlphaLLM die spezifischen Herausforderungen bei der Kombination von MCTS mit LLMs zur Selbstverbesserung, darunter Datenknappheit, die immens großen Suchräume sprachbasierter Aufgaben sowie die subjektive Natur der Rückmeldungen in sprachlichen Kontexten. AlphaLLM besteht aus einem Komponente zur Prompt-Synthese, einem effizienten MCTS-Ansatz, der speziell für sprachbasierte Aufgaben angepasst ist, sowie einem Trio aus Kritikermodellen zur präzisen Rückmeldung. Unsere experimentellen Ergebnisse bei mathematischen Schlussfolgerungsaufgaben zeigen, dass AlphaLLM die Leistung von LLMs ohne zusätzliche Annotationen signifikant steigert und somit das Potenzial für die Selbstverbesserung von LLMs unterstreicht.

Zur Selbstverbesserung von LLMs durch Phantasie, Suche und Kritik | Neueste Forschungsarbeiten | HyperAI