Sprach-Agenten-Baum-Suche vereint Schlussfolgern, Handeln und Planen in Sprachmodellen

Obwohl Sprachmodelle (LMs) in einer Vielzahl von Entscheidungsaufgaben ein großes Potenzial zeigen, beschränkt ihre Abhängigkeit von einfachen Handlungsprozessen ihre breite Anwendung als autonome Agenten. In diesem Paper stellen wir Language Agent Tree Search (LATS) vor – den ersten allgemeinen Rahmen, der die Fähigkeiten von LMs in Schlussfolgern, Handeln und Planen synergistisch nutzt. Durch Ausnutzung der kontextuellen Lernfähigkeit von LMs integrieren wir den Monte-Carlo-Baum-Suchalgorithmus in LATS, um LMs als Agenten einzusetzen, ergänzt um von LMs getriebene Wertfunktionen und Selbstreflexionen zur effizienten Exploration und verbesserten Entscheidungsfindung. Ein zentrales Merkmal unseres Ansatzes ist die Einbindung einer Umgebung für externe Rückmeldungen, die ein bewussteres und anpassungsfähigeres Problemlösungsverfahren ermöglicht, das die Einschränkungen bestehender Techniken übertrifft. Unsere experimentelle Evaluierung über verschiedene Domänen hinweg – einschließlich Programmierung, interaktiver Frage-Antwort-Systeme (QA), Web-Navigation und Mathematik – bestätigt die Wirksamkeit und Allgemeingültigkeit von LATS bei Entscheidungsfindung, wobei gleichzeitig konkurrenzfähige oder verbesserte Schlussfolgerungsleistungen erzielt werden. Insbesondere erreicht LATS bei der Programmieraufgabe HumanEval mit GPT-4 eine state-of-the-art Pass@1-Genauigkeit von 92,7 % und demonstriert bei der Web-Navigation auf WebShop mit GPT-3.5 eine gradientenfreie Leistung (durchschnittlicher Score von 75,9), die der von gradientenbasiertem Feinabstimmen vergleichbar ist. Der Quellcode ist unter https://github.com/lapisrocks/LanguageAgentTreeSearch verfügbar.