HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

WebSailor-V2: Brückenbildung zu proprietären Agenten durch synthetische Daten und skalierbares Verstärkungslernen

WebSailor-V2: Brückenbildung zu proprietären Agenten durch synthetische Daten und skalierbares Verstärkungslernen

Abstract

Die Überwindung menschlicher kognitiver Grenzen stellt eine entscheidende Front in der Entwicklung von Großmodellen (LLM) dar. Proprietäre agente Systeme wie DeepResearch haben bereits übermenschliche Fähigkeiten bei extrem komplexen Informationsbeschaffungsaufgaben demonstriert, beispielsweise im Benchmark BrowseComp – eine Leistung, die bisher unerreicht war. Wir vermuten, dass ihr Erfolg auf einem komplexen Schlussfolgerungsmechanismus beruht, der in offenen Quellcode-Modellen fehlt: der Fähigkeit, bei der Navigation durch umfangreiche Informationslandschaften extreme Unsicherheit systematisch zu reduzieren. Auf der Grundlage dieses Erkenntnisses stellen wir WebSailor vor, eine vollständige Methode zur Nachtrainierung, die darauf abzielt, diese entscheidende Fähigkeit zu vermitteln. Unser Ansatz umfasst die Erzeugung neuartiger, hochunsicherer Aufgaben mittels strukturierter Stichprobentechniken und Informationsverschleierung, einen RFT-Cold-Start sowie einen effizienten agentenbasierten RL-Trainingsalgorithmus namens Duplicating Sampling Policy Optimization (DUPO). Mit dieser integrierten Pipeline übertrifft WebSailor alle bisherigen Open-Source-Agenten bei komplexen Informationsbeschaffungsaufgaben und erreicht die Leistungsfähigkeit proprietärer Systeme, wodurch die Fähigkeitslücke signifikant geschlossen wird.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
WebSailor-V2: Brückenbildung zu proprietären Agenten durch synthetische Daten und skalierbares Verstärkungslernen | Forschungsarbeiten | HyperAI