vor 5 Monaten

Zusammenfassung

Wir stellen WebSight vor, einen visionbasierten autonomen Web-Agenten, der mit Web-Umgebungen ausschließlich über visuelle Wahrnehmung interagiert und somit auf Eingaben basierend auf HTML oder DOM verzichtet. Kernstück unseres Ansatzes ist unser neues Modell, WebSight-7B, ein feinabgestimmtes Vision-Sprache-Modell, das speziell für die Interaktion mit Benutzeroberflächen-Elementen optimiert ist und mithilfe von LoRA auf einer webfokussierten Teilmenge des Wave-UI-25K-Datensatzes trainiert wurde. WebSight integriert dieses Modell in eine modulare Multi-Agenten-Architektur, die Planungs-, Schlussfolgerungs-, Vision-Aktion- und Verifizierungs-Agenten umfasst und durch eine episodische Gedächtnis-Mechanismus koordiniert wird.

WebSight-7B erreicht auf dem Showdown Clicks-Benchmark eine Top-1-Accuracy von 58,84 % und übertrifft dabei mehrere größere generalistische Modelle, während gleichzeitig eine geringere Latenz aufrechterhalten wird. Der vollständige WebSight-Agent erzielt auf dem WebVoyager-Benchmark eine Erfolgsquote von 68,0 % und übertrifft damit Systeme aus Laboren wie OpenAI (61,0 %) und HCompany (Runner H, 67,0 %). Bei den abgeschlossenen Aufgaben beantwortet WebSight zu 97,14 % korrekt, was auf eine hohe Genauigkeit hindeutet. Zusammen stellen WebSight und WebSight-7B einen neuen Standard für interpretierbare, robuste und effiziente visuelle Web-Navigation dar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Tanvir Bhathal Asanshay Gupta

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Tanvir Bhathal Asanshay Gupta

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

WebSight: Eine vision-first-Architektur für robuste Web-Agenten

Tanvir Bhathal Asanshay Gupta

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

WebSight: Eine vision-first-Architektur für robuste Web-Agenten

Tanvir Bhathal Asanshay Gupta

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

WebSight: Eine vision-first-Architektur für robuste Web-Agenten

Tanvir Bhathal Asanshay Gupta

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters