Command Palette
Search for a command to run...
VerlTool: Ein Schritt hin zu einer ganzheitlichen agentenbasierten Verstärkungslernmethode mit Werkzeugnutzung

Abstract
Reinforcement Learning mit überprüfbarer Belohnung (Verifiable Rewards Reinforcement Learning, RLVR) hat sich als wirksam erwiesen, um die Schlussfolgerungsfähigkeiten von großen Sprachmodellen (LLM) zu verbessern. Allerdings bleibt es auf Einzelinteraktionen beschränkt und integriert keine Werkzeuge. Obwohl kürzlich Ansätze des agierenden Reinforcement Learning mit Werkzeugnutzung (Agentic Reinforcement Learning with Tool use, ARLT) zur Bewältigung mehrfacher Interaktionen mit Werkzeugen entwickelt wurden, basieren bestehende Arbeiten auf spezifischen Aufgabencodebasen, die durch Fragmentierung, synchronisationsbedingte Engpässe und eine begrenzte Erweiterbarkeit über verschiedene Domänen hinweg gekennzeichnet sind. Diese Effizienzverluste behindern eine breitere Akzeptanz in der Forschergemeinschaft und die Weiterentwicklung von Algorithmen. Wir stellen VerlTool vor, einen einheitlichen und modularen Rahmen, der diese Einschränkungen durch systematische Entwurfsprinzipien überwindet. VerlTool leistet vier wesentliche Beiträge: (1) eine konsistente Ausrichtung auf VeRL, die Kompatibilität gewährleistet und die Wartung vereinfacht; (2) eine einheitliche Werkzeugverwaltung mittels standardisierter APIs, die verschiedene Modalitäten wie Code-Execution, Suchfunktionen, SQL-Datenbanken und Bildverarbeitung unterstützen; (3) asynchrone Rollout-Ausführung, die durch die Beseitigung von Synchronisationsengpässen eine nahezu zweifache Beschleunigung erzielt; und (4) eine umfassende Evaluation, die eine konkurrenzfähige Leistung in sechs ARLT-Domänen nachweist. Unser Rahmen formalisiert ARLT als mehrschrittige Trajektorien mit multimodalen Beobachtungstoken (Text/Bild/Video) und erweitert damit die bisherigen Einzelschritt-RLVR-Paradigmen. Wir trainieren und evaluieren Modelle auf Aufgaben im Bereich mathematischer Schlussfolgerung, Wissens-Fragen/Antworten (QA), SQL-Generierung, visuelle Schlussfolgerung, Web-Suche und Softwareentwicklung. Dabei erreichen wir Ergebnisse, die mit spezialisierten Systemen vergleichbar sind, während gleichzeitig eine einheitliche Trainingsinfrastruktur bereitgestellt wird. Die modulare Plugin-Architektur ermöglicht eine schnelle Integration neuer Werkzeuge mit lediglich leichtgewichtigen Python-Definitionen, was die Entwicklungsbelastung erheblich reduziert und eine skalierbare Grundlage für die Forschung im Bereich werkzeugunterstützten Reinforcement Learning bietet. Unser Quellcode ist unter https://github.com/TIGER-AI-Lab/verl-tool öffentlich zugänglich.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.