Command Palette
Search for a command to run...
Surfer 2: Die nächste Generation der plattformübergreifenden Computeranwender-Agenten

Abstract
Die Entwicklung von Agenten, die über Web-, Desktop- und mobile Umgebungen hinweg generalisieren, bleibt eine offene Herausforderung, da frühere Systeme auf umgebungsbezogenen Schnittstellen basieren, die die plattformübergreifende Anwendung einschränken. Wir stellen Surfer 2 vor, eine einheitliche Architektur, die ausschließlich auf visuellen Beobachtungen operiert und state-of-the-art-Leistungen in allen drei Umgebungen erzielt. Surfer 2 integriert eine hierarchische Kontextverwaltung, eine entkoppelte Planung und Ausführung sowie eine Selbstverifikation mit adaptiver Wiederherstellung, was eine zuverlässige Ausführung über lange Aufgabenhorizonte ermöglicht. Unser System erreicht eine Genauigkeit von 97,1 % auf WebVoyager, 69,6 % auf WebArena, 60,1 % auf OSWorld und 87,1 % auf AndroidWorld – und übertrifft damit alle vorherigen Ansätze, ohne task-spezifische Feinabstimmung. Bei mehreren Versuchen übertroffen Surfer 2 die menschliche Leistung auf allen Benchmarks. Diese Ergebnisse zeigen, dass eine systematische Orchestrierung die Fähigkeiten von Grundmodellen verstärkt und eine allgemein verwendbare Steuerung von Computern allein durch visuelle Interaktion ermöglicht, wobei gleichzeitig ein neuer Generations-Visions-Sprachmodell gefordert wird, um eine Pareto-optimale Kosteneffizienz zu erreichen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.