HyperAIHyperAI

Command Palette

Search for a command to run...

WebSailor: Die Navigation übermenschlicher Schlussfolgerung für Web-Agenten

Zusammenfassung

Das Überwinden menschlicher kognitiver Grenzen stellt eine entscheidende Herausforderung im Training von LLMs dar. proprietäre agentenzentrierte Systeme wie DeepResearch haben supermenschliche Fähigkeiten bei extrem komplexen Informationsbeschaffungsbenchmarks wie BrowseComp gezeigt, eine Leistung, die bisher nicht erreichbar war. Wir gehen davon aus, dass ihr Erfolg auf einem fortschrittlichen Denkmuster beruht, das in Open-Source-Modellen fehlt: der Fähigkeit, extreme Unsicherheit systematisch zu reduzieren, wenn man sich durch umfangreiche Informationslandschaften bewegt. Auf dieser Erkenntnis basierend führen wir WebSailor ein, eine vollständige Post-Training-Methode, die darauf abzielt, diese wichtige Fähigkeit zu vermitteln. Unser Ansatz umfasst die Erstellung neuer, hochunsicherer Aufgaben durch strukturiertes Sampling und Informationsverschleierung, RFT-Kaltstart und einen effizienten agentenzentrierten RL-Trainingsalgorithmus, den Duplizierenden Sampling Policy Optimization (DUPO). Mit dieser integrierten Pipeline übertrifft WebSailor alle Open-Source-Agenten bei komplexen Informationsbeschaffungsaufgaben und erreicht die Leistung von proprietären Agenten, indem es den Fähigkeitsunterschied schließt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp