Command Palette
Search for a command to run...
Dr. Zero: Selbstentwickelnde Suchagenten ohne Trainingsdaten
Dr. Zero: Selbstentwickelnde Suchagenten ohne Trainingsdaten
Zhenrui Yue Kartikeya Upasani Xianjun Yang Suyu Ge Shaoliang Nie Yuning Mao Zhe Liu Dong Wang
Abstract
Da hochwertige Daten zunehmend schwerer zugänglich sind, hat sich die datenfreie Selbstentwicklung als vielversprechendes Paradigma etabliert. Dieser Ansatz ermöglicht es großen Sprachmodellen (LLMs), komplexe Probleme autonom zu generieren und zu lösen, wodurch ihre Schlussfolgerungsfähigkeiten verbessert werden. Allerdings leiden mehrschrittige Suchagenten in datenfreien Selbstentwicklungsprozessen unter begrenzter Fragevielfalt und erheblichem Rechenaufwand für mehrstufige Schlussfolgerungen sowie die Nutzung von Werkzeugen. In dieser Arbeit stellen wir Dr. Zero vor – einen Rahmen, der es Suchagenten ermöglicht, ohne jegliche Trainingsdaten effektiv selbst zu evolvieren. Insbesondere entwerfen wir eine Selbstentwicklungs-Rückkopplungsschleife, bei der ein Vorschlagsagent diverse Fragen generiert, um einen Löser zu trainieren, der aus demselben Basismodell initialisiert wird. Während sich der Löser weiterentwickelt, motiviert er den Vorschlagsagenten, zunehmend anspruchsvollere, aber dennoch lösbare Aufgaben zu erzeugen, wodurch ein automatisiertes Lerncurriculum entsteht, das beide Agenten kontinuierlich verfeinert. Zur Verbesserung der Trainingseffizienz führen wir zudem hop-gruppierte relative Policy-Optimierung (HRPO) ein. Diese Methode gruppiert strukturell ähnliche Fragen, um gruppenbasierte Baseline-Modelle zu konstruieren, wodurch der Stichprobenaufwand zur Bewertung der individuellen Schwierigkeit und Lösbarkeit jeder Anfrage effektiv reduziert wird. Dadurch verringert HRPO signifikant die Rechenanforderungen für die Löser-Trainingsphase, ohne Leistung oder Stabilität zu beeinträchtigen. Umfangreiche Experimente zeigen, dass Dr. Zero ohne Daten die Leistung vollständig überwachter Suchagenten erreicht oder sogar übertrifft, was belegt, dass komplexe Schlussfolgerungs- und Suchfähigkeiten allein durch Selbstentwicklung entstehen können.