HyperAIHyperAI
vor 11 Tagen

Jenseits von zehn Zugriffen: Freigabe langfristiger agenter Suche mit großskaliger asynchroner RL

Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu
Jenseits von zehn Zugriffen: Freigabe langfristiger agenter Suche mit großskaliger asynchroner RL
Abstract

Neuere Fortschritte bei LLM-basierten Agenten haben erhebliche Fähigkeiten bei der Bewältigung komplexer, wissensintensiver Aufgaben durch die Integration externer Werkzeuge demonstriert. Unter den verschiedenen verfügbaren Werkzeugen spielen Suchwerkzeuge eine Schlüsselrolle bei der Erschließung umfangreicher externer Wissensbestände. Dennoch erreichen bisherige Open-Source-Agenten noch nicht das Niveau von Experten bei der Suchintelligenz – also der Fähigkeit, mehrdeutige Anfragen zu entschlüsseln, präzise Suchanfragen zu generieren, Suchergebnisse zu analysieren und umfassend zu erforschen. Bestehende Ansätze leiden unter Mängeln hinsichtlich Skalierbarkeit, Effizienz und Datenqualität. So beschränken beispielsweise geringe Rundenzahlen in bestehenden Online-RL-Methoden, etwa ≤10, die Entwicklung komplexer Strategien. In diesem Paper stellen wir ASearcher vor, ein Open-Source-Projekt zur großskaligen RL-Training von Suchagenten. Unsere zentralen Beiträge sind: (1) Skalierbares, vollständig asynchrones RL-Training, das eine langfristige Suchstrategie ermöglicht, ohne die Trainingseffizienz zu beeinträchtigen. (2) Ein promptbasiertes LLM-Agenten-Modell, das autonom hochwertige und anspruchsvolle Fragen und Antworten (QAs) generiert und damit eine große Datenmenge an QA-Daten erstellt. Durch RL-Training erreicht unser promptbasiertes QwQ-32B-Modell erhebliche Verbesserungen mit einem Zuwachs von jeweils 46,7 % und 20,8 % im Avg@4 auf xBench und GAIA. Besonders hervorzuheben ist die extreme Langhorizont-Suche unseres Agenten, bei der die Anzahl an Werkzeugaufrufen über 40 Runden und die Anzahl an Ausgabetokens während des Trainingszeitraums über 150.000 betrug. Mit einer einfachen Agentenarchitektur und ohne externe LLMs erreicht ASearcher-Web-QwQ Avg@4-Scores von 42,1 auf xBench und 52,8 auf GAIA – wodurch es bestehende Open-Source-32B-Agenten übertrifft. Wir stellen unsere Modelle, Trainingsdaten und den Quellcode unter https://github.com/inclusionAI/ASearcher als Open Source zur Verfügung.