Command Palette
Search for a command to run...
Baumsuche für die Verstärkungslernung von LLM-Agenten
Yuxiang Ji Ziyu Ma Yong Wang Guanhua Chen Xiangxiang Chu Liaoni Wu

Abstract
Neuere Fortschritte im Verstärkenden Lernen (Reinforcement Learning, RL) haben die agenzfähigen Fähigkeiten großer Sprachmodelle (Large Language Models, LLMs) erheblich verbessert. Bei langfristigen und mehrschrittigen Agentenaufgaben leiden bestehende Ansätze, die ausschließlich auf Ausgangsbelohnungen basieren, oft unter dem Problem einer spärlichen Überwachung. Um dieses Problem anzugehen, stellen wir Tree-based Group Relative Policy Optimization (Tree-GRPO) vor, eine gruppenbasierte RL-Methode für Agenten, die auf Baum-Suche beruht, wobei jeder Baumknoten einen vollständigen Interaktions-Schritt des Agents repräsentiert. Durch die gemeinsame Nutzung gemeinsamer Präfixe erhöht die Baum-Such-Probabilisierung die Anzahl der durchführbaren Rollouts innerhalb eines festen Budgets an Token oder Werkzeugaufrufen. Darüber hinaus zeigen wir, dass die baumstrukturierte Trajektorie es selbst bei Verwendung lediglich der Ausgangsbelohnung ermöglicht, schrittweise Prozess-Überwachungssignale zu konstruieren. Auf dieser Grundlage schätzt Tree-GRPO die gruppenweisen relativen Vorteile sowohl auf intra-bäumlicher als auch auf inter-bäumlicher Ebene ab. Theoretisch zeigen wir, dass das Ziel der intra-bäumlichen gruppenweisen politischen Optimierung äquivalent dem der schrittweisen direkten Präferenzlernung ist. Experimente an 11 Datensätzen und drei Arten von Fragen-Antwort-Aufgaben belegen die Überlegenheit des vorgeschlagenen baumbasierten RL gegenüber der kettenbasierten RL-Methode.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.