vor 2 Monaten

VerlTool: Ein Schritt hin zu einer ganzheitlichen agentenbasierten Verstärkungslernmethode mit Werkzeugnutzung

Details der Forschungsarbeit anzeigen Code anzeigen

Dongfu Jiang Yi Lu Zhuofeng Li Zhiheng Lyu Ping Nie Haozhe Wang Alex Su Hui Chen Kai Zou Chao Du

VerlTool: Ein Schritt hin zu einer ganzheitlichen agentenbasierten Verstärkungslernmethode mit Werkzeugnutzung

Abstract

Reinforcement Learning mit überprüfbarer Belohnung (Verifiable Rewards Reinforcement Learning, RLVR) hat sich als wirksam erwiesen, um die Schlussfolgerungsfähigkeiten von großen Sprachmodellen (LLM) zu verbessern. Allerdings bleibt es auf Einzelinteraktionen beschränkt und integriert keine Werkzeuge. Obwohl kürzlich Ansätze des agierenden Reinforcement Learning mit Werkzeugnutzung (Agentic Reinforcement Learning with Tool use, ARLT) zur Bewältigung mehrfacher Interaktionen mit Werkzeugen entwickelt wurden, basieren bestehende Arbeiten auf spezifischen Aufgabencodebasen, die durch Fragmentierung, synchronisationsbedingte Engpässe und eine begrenzte Erweiterbarkeit über verschiedene Domänen hinweg gekennzeichnet sind. Diese Effizienzverluste behindern eine breitere Akzeptanz in der Forschergemeinschaft und die Weiterentwicklung von Algorithmen. Wir stellen VerlTool vor, einen einheitlichen und modularen Rahmen, der diese Einschränkungen durch systematische Entwurfsprinzipien überwindet. VerlTool leistet vier wesentliche Beiträge: (1) eine konsistente Ausrichtung auf VeRL, die Kompatibilität gewährleistet und die Wartung vereinfacht; (2) eine einheitliche Werkzeugverwaltung mittels standardisierter APIs, die verschiedene Modalitäten wie Code-Execution, Suchfunktionen, SQL-Datenbanken und Bildverarbeitung unterstützen; (3) asynchrone Rollout-Ausführung, die durch die Beseitigung von Synchronisationsengpässen eine nahezu zweifache Beschleunigung erzielt; und (4) eine umfassende Evaluation, die eine konkurrenzfähige Leistung in sechs ARLT-Domänen nachweist. Unser Rahmen formalisiert ARLT als mehrschrittige Trajektorien mit multimodalen Beobachtungstoken (Text/Bild/Video) und erweitert damit die bisherigen Einzelschritt-RLVR-Paradigmen. Wir trainieren und evaluieren Modelle auf Aufgaben im Bereich mathematischer Schlussfolgerung, Wissens-Fragen/Antworten (QA), SQL-Generierung, visuelle Schlussfolgerung, Web-Suche und Softwareentwicklung. Dabei erreichen wir Ergebnisse, die mit spezialisierten Systemen vergleichbar sind, während gleichzeitig eine einheitliche Trainingsinfrastruktur bereitgestellt wird. Die modulare Plugin-Architektur ermöglicht eine schnelle Integration neuer Werkzeuge mit lediglich leichtgewichtigen Python-Definitionen, was die Entwicklungsbelastung erheblich reduziert und eine skalierbare Grundlage für die Forschung im Bereich werkzeugunterstützten Reinforcement Learning bietet. Unser Quellcode ist unter https://github.com/TIGER-AI-Lab/verl-tool öffentlich zugänglich.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VerlTool: Ein Schritt hin zu einer ganzheitlichen agentenbasierten Verstärkungslernmethode mit Werkzeugnutzung

Dongfu Jiang Yi Lu Zhuofeng Li Zhiheng Lyu Ping Nie Haozhe Wang Alex Su Hui Chen Kai Zou Chao Du2 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Dongfu Jiang Yi Lu Zhuofeng Li Zhiheng Lyu Ping Nie Haozhe Wang Alex Su Hui Chen Kai Zou Chao Du