HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

WebSight: Eine vision-first-Architektur für robuste Web-Agenten

Tanvir Bhathal Asanshay Gupta

WebSight: Eine vision-first-Architektur für robuste Web-Agenten

Abstract

Wir stellen WebSight vor, einen visionbasierten autonomen Web-Agenten, der mit Web-Umgebungen ausschließlich über visuelle Wahrnehmung interagiert und somit auf Eingaben basierend auf HTML oder DOM verzichtet. Kernstück unseres Ansatzes ist unser neues Modell, WebSight-7B, ein feinabgestimmtes Vision-Sprache-Modell, das speziell für die Interaktion mit Benutzeroberflächen-Elementen optimiert ist und mithilfe von LoRA auf einer webfokussierten Teilmenge des Wave-UI-25K-Datensatzes trainiert wurde. WebSight integriert dieses Modell in eine modulare Multi-Agenten-Architektur, die Planungs-, Schlussfolgerungs-, Vision-Aktion- und Verifizierungs-Agenten umfasst und durch eine episodische Gedächtnis-Mechanismus koordiniert wird. WebSight-7B erreicht auf dem Showdown Clicks-Benchmark eine Top-1-Accuracy von 58,84 % und übertrifft dabei mehrere größere generalistische Modelle, während gleichzeitig eine geringere Latenz aufrechterhalten wird. Der vollständige WebSight-Agent erzielt auf dem WebVoyager-Benchmark eine Erfolgsquote von 68,0 % und übertrifft damit Systeme aus Laboren wie OpenAI (61,0 %) und HCompany (Runner H, 67,0 %). Bei den abgeschlossenen Aufgaben beantwortet WebSight zu 97,14 % korrekt, was auf eine hohe Genauigkeit hindeutet. Zusammen stellen WebSight und WebSight-7B einen neuen Standard für interpretierbare, robuste und effiziente visuelle Web-Navigation dar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
WebSight: Eine vision-first-Architektur für robuste Web-Agenten | Forschungsarbeiten | HyperAI