WebSailor: Die Navigation übermenschlicher Schlussfolgerung für Web-Agenten

Das Überwinden menschlicher kognitiver Grenzen stellt eine entscheidende Herausforderung im Training von LLMs dar. proprietäre agentenzentrierte Systeme wie DeepResearch haben supermenschliche Fähigkeiten bei extrem komplexen Informationsbeschaffungsbenchmarks wie BrowseComp gezeigt, eine Leistung, die bisher nicht erreichbar war. Wir gehen davon aus, dass ihr Erfolg auf einem fortschrittlichen Denkmuster beruht, das in Open-Source-Modellen fehlt: der Fähigkeit, extreme Unsicherheit systematisch zu reduzieren, wenn man sich durch umfangreiche Informationslandschaften bewegt. Auf dieser Erkenntnis basierend führen wir WebSailor ein, eine vollständige Post-Training-Methode, die darauf abzielt, diese wichtige Fähigkeit zu vermitteln. Unser Ansatz umfasst die Erstellung neuer, hochunsicherer Aufgaben durch strukturiertes Sampling und Informationsverschleierung, RFT-Kaltstart und einen effizienten agentenzentrierten RL-Trainingsalgorithmus, den Duplizierenden Sampling Policy Optimization (DUPO). Mit dieser integrierten Pipeline übertrifft WebSailor alle Open-Source-Agenten bei komplexen Informationsbeschaffungsaufgaben und erreicht die Leistung von proprietären Agenten, indem es den Fähigkeitsunterschied schließt.