WebWatcher: Neue Grenzen des visuell-sprachlichen tiefen Forschungsagents erschließend

Web-Agent wie Deep Research haben übermenschliche kognitive Fähigkeiten demonstriert und sind in der Lage, äußerst anspruchsvolle Informationsbeschaffungsaufgaben zu lösen. Die meisten Forschungsarbeiten konzentrieren sich jedoch weiterhin primär auf Text, wodurch visuelle Informationen aus der realen Welt oft außer Acht gelassen werden. Dies macht die multimodale Deep Research äußerst herausfordernd, da solche Agenten im Vergleich zu rein textbasierten Agenten über deutlich stärkere Fähigkeiten in Wahrnehmung, Logik, Wissensverarbeitung und den Einsatz komplexerer Werkzeuge verfügen müssen. Um diese Einschränkung zu überwinden, stellen wir WebWatcher vor – einen multimodalen Agenten für Deep Research mit erweiterten visuell-sprachlichen Schlussfolgerungsfähigkeiten. WebWatcher nutzt hochwertige synthetische multimodale Trajektorien für eine effiziente Cold-Start-Trainingsphase, setzt verschiedene Werkzeuge zur tiefen Schlussfolgerung ein und verbessert zudem die Generalisierbarkeit durch Verstärkungslernen. Um die Fähigkeiten multimodaler Agenten besser bewerten zu können, schlagen wir BrowseComp-VL vor – einen Benchmark im Stil von BrowseComp, der komplexe Informationsabrufaufgaben erfordert, die sowohl visuelle als auch textuelle Informationen integrieren. Experimentelle Ergebnisse zeigen, dass WebWatcher gegenüber proprietären Baselines, RAG-Workflows und offenen Quellcode-Agenten in vier anspruchsvollen VQA-Benchmarks erheblich übertrifft, was den Weg für die Lösung komplexer multimodaler Informationsbeschaffungsaufgaben ebnen könnte.