Command Palette
Search for a command to run...
WebSight: Eine vision-first-Architektur für robuste Web-Agenten
Tanvir Bhathal Asanshay Gupta

Abstract
Wir stellen WebSight vor, einen visionbasierten autonomen Web-Agenten, der mit Web-Umgebungen ausschließlich über visuelle Wahrnehmung interagiert und somit auf Eingaben basierend auf HTML oder DOM verzichtet. Kernstück unseres Ansatzes ist unser neues Modell, WebSight-7B, ein feinabgestimmtes Vision-Sprache-Modell, das speziell für die Interaktion mit Benutzeroberflächen-Elementen optimiert ist und mithilfe von LoRA auf einer webfokussierten Teilmenge des Wave-UI-25K-Datensatzes trainiert wurde. WebSight integriert dieses Modell in eine modulare Multi-Agenten-Architektur, die Planungs-, Schlussfolgerungs-, Vision-Aktion- und Verifizierungs-Agenten umfasst und durch eine episodische Gedächtnis-Mechanismus koordiniert wird. WebSight-7B erreicht auf dem Showdown Clicks-Benchmark eine Top-1-Accuracy von 58,84 % und übertrifft dabei mehrere größere generalistische Modelle, während gleichzeitig eine geringere Latenz aufrechterhalten wird. Der vollständige WebSight-Agent erzielt auf dem WebVoyager-Benchmark eine Erfolgsquote von 68,0 % und übertrifft damit Systeme aus Laboren wie OpenAI (61,0 %) und HCompany (Runner H, 67,0 %). Bei den abgeschlossenen Aufgaben beantwortet WebSight zu 97,14 % korrekt, was auf eine hohe Genauigkeit hindeutet. Zusammen stellen WebSight und WebSight-7B einen neuen Standard für interpretierbare, robuste und effiziente visuelle Web-Navigation dar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.