HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

WebExplorer: Erkunden und Evolvieren zur Schulung von Langzeit-Web-Agenten

WebExplorer: Erkunden und Evolvieren zur Schulung von Langzeit-Web-Agenten

Abstract

Das Paradigma von Large Language Models (LLMs) verschiebt sich zunehmend hin zu agenzbasierten Anwendungen, bei denen die Fähigkeit zum Web-Browsen grundlegend ist, um Informationen aus unterschiedlichen Online-Quellen abzurufen. Bisherige Open-Source-Web-Agenten weisen jedoch entweder eingeschränkte Informationsbeschaffungsfähigkeiten bei komplexen Aufgaben auf oder fehlen an Transparenz in ihrer Implementierung. In dieser Arbeit identifizieren wir die zentrale Herausforderung darin, dass ausreichend anspruchsvolle Daten für die Informationsbeschaffung fehlen. Um diesen Mangel zu beheben, stellen wir WebExplorer vor: einen systematischen Ansatz zur Datengenerierung, der modellbasierte Exploration sowie eine iterative, lang-zu-kurz-orientierte Query-Evolution nutzt. Diese Methode generiert anspruchsvolle Query-Answer-Paare, die mehrstufige Schlussfolgerungen und komplexe Web-Navigation erfordern. Mittels unseres sorgfältig kuratierten Datensatzes mit hoher Qualität gelingt es uns, den fortgeschrittenen Web-Agenten WebExplorer-8B durch überwachtes Feintuning gefolgt von Verstärkendem Lernen zu entwickeln. Unser Modell unterstützt eine Kontextlänge von bis zu 128.000 Tokens und bis zu 100 Aufrufe von Tools, was eine Lösung komplexer Probleme über lange Zeiträume ermöglicht. Auf verschiedenen Benchmarks zur Informationsbeschaffung erzielt WebExplorer-8B die derzeit beste Leistung in seiner Größenordnung. Insbesondere zeigt das 8-Billionen-Modell nach RL-Training eine durchschnittliche Suchtiefe von 16 Schritten und erreicht dabei eine höhere Genauigkeit als WebSailor-72B auf den Benchmarks BrowseComp-en/zh und erzielt die besten Ergebnisse unter allen Modellen bis 100 Milliarden Parametern auf WebWalkerQA und FRAMES. Darüber hinaus zeigt unser Modell auch eine starke Generalisierbarkeit auf dem HLE-Benchmark, obwohl es ausschließlich auf wissensintensiven QA-Daten trainiert wurde. Diese Ergebnisse unterstreichen unseren Ansatz als praktikable Lösung für die Entwicklung von Web-Agenten mit langen Horizonten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
WebExplorer: Erkunden und Evolvieren zur Schulung von Langzeit-Web-Agenten | Forschungsarbeiten | HyperAI