HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

WebSight : Une architecture centrée sur la vision pour des agents web robustes

Tanvir Bhathal Asanshay Gupta

WebSight : Une architecture centrée sur la vision pour des agents web robustes

Résumé

Nous présentons WebSight, un agent web autonome basé sur la vision, conçu pour interagir avec des environnements web uniquement par perception visuelle, sans dépendre des entrées basées sur le HTML ou le DOM. Au cœur de notre approche, nous introduisons un nouveau modèle, WebSight-7B, un modèle vision-langage ajusté (fine-tuned) spécifiquement pour l’interaction avec les éléments d’interface utilisateur, entraîné à l’aide de LoRA sur un sous-ensemble axé sur le web du jeu de données Wave-UI-25K. WebSight intègre ce modèle dans une architecture modulaire à plusieurs agents, composée d’agents de planification, de raisonnement, d’action-visuelle et de vérification, coordonnés par un mécanisme de mémoire épisodique. WebSight-7B atteint une précision au top-1 de 58,84 % sur le benchmark Showdown Clicks, surpassant plusieurs modèles généralistes plus volumineux tout en maintenant une latence plus faible. L’agent complet WebSight obtient un taux de réussite de 68,0 % sur le benchmark WebVoyager, dépassant des systèmes issus de laboratoires tels qu’OpenAI (61,0 %) et HCompany (Runner H, 67,0 %). Parmi les tâches réalisées, WebSight répond correctement à 97,14 % des cas, témoignant d’une grande précision. Ensemble, WebSight et WebSight-7B établissent une nouvelle norme pour la navigation web visuelle, interprétable, robuste et efficace.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
WebSight : Une architecture centrée sur la vision pour des agents web robustes | Articles de recherche | HyperAI