Command Palette
Search for a command to run...
DeepSearch: Die Beschränkung des Verstärkungslernens durch überprüfbare Belohnungen über Monte-Carlo-Baum-Suche überwinden
Fang Wu Weihao Xuan Heli Qi Ximing Lu Aaron Tu Li Erran Li Yejin ChoiRetry

Abstract
Obwohl RLVR zu einer essenziellen Komponente für die Entwicklung fortgeschrittener Schlussfolgerungsfähigkeiten bei großen Sprachmodellen (LLMs) geworden ist, dokumentieren aktuelle Studien Trainingsplateaus, die sich nach Tausenden von Optimierungsschritten einstellen und deutliche Einbußen bei der Leistungssteigerung zeigen, trotz steigender Rechenressourcen. Diese Beschränkung resultiert aus den spärlichen Erkundungsmustern, die in derzeitigen RLVR-Praktiken inhärent sind: Modelle stützen sich auf begrenzte Rollouts, die häufig kritische Schlussfolgerungspfade verpassen und keine systematische Abdeckung des Lösungsraums ermöglichen. Wir stellen DeepSearch vor, einen Rahmen, der den Monte-Carlo-Baum-Such-Algorithmus (MCTS) direkt in den RLVR-Trainingsprozess integriert. Im Gegensatz zu bestehenden Ansätzen, die Baum-Suche lediglich zur Inferenzzeit nutzen, integriert DeepSearch strukturierte Suche in die Trainingsiteration selbst, wodurch eine systematische Erkundung und eine feinabgestimmte Belohnungszuweisung über die einzelnen Schlussfolgerungsschritte hinweg ermöglicht wird. Durch Erkundung während des Trainings adressiert DeepSearch die grundlegende Engstelle der unzureichenden Exploration, die zu sinkenden Leistungsverbesserungen über längere Trainingsphasen führt. Unsere Beiträge umfassen: (1) eine globale Frontiers-Auswahlstrategie, die vielversprechende Knoten im Suchbaum priorisiert; (2) eine Auswahl mit entropiebasiertem Leitfaden, die vertrauenswürdige Pfade zur Supervision identifiziert; und (3) eine adaptive Replay-Puffer-Trainingseinheit mit Lösungscaching zur Effizienzsteigerung. Experimente auf mathematischen Schlussfolgerungsbenchmarks zeigen, dass DeepSearch eine durchschnittliche Genauigkeit von 62,95 % erreicht und eine neue State-of-the-Art für 1,5-Billionen-Modell-Größen darstellt – und zwar mit nur 5,7-fach weniger GPU-Stunden im Vergleich zu erweiterten Trainingsansätzen. Diese Ergebnisse unterstreichen die Bedeutung strategischer Exploration gegenüber reiner Skalierung durch Rohleistung und demonstrieren das Potenzial algorithmischer Innovation für die Weiterentwicklung von RLVR-Methoden. DeepSearch eröffnet eine neue Forschungsrichtung für die Skalierung von Schlussfolgerungsfähigkeiten durch systematische Suche anstelle von verlängerten Rechenoperationen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.