Command Palette
Search for a command to run...
WebSight : Une architecture centrée sur la vision pour des agents web robustes
Tanvir Bhathal Asanshay Gupta

Résumé
Nous présentons WebSight, un agent web autonome basé sur la vision, conçu pour interagir avec des environnements web uniquement par perception visuelle, sans dépendre des entrées basées sur le HTML ou le DOM. Au cœur de notre approche, nous introduisons un nouveau modèle, WebSight-7B, un modèle vision-langage ajusté (fine-tuned) spécifiquement pour l’interaction avec les éléments d’interface utilisateur, entraîné à l’aide de LoRA sur un sous-ensemble axé sur le web du jeu de données Wave-UI-25K. WebSight intègre ce modèle dans une architecture modulaire à plusieurs agents, composée d’agents de planification, de raisonnement, d’action-visuelle et de vérification, coordonnés par un mécanisme de mémoire épisodique. WebSight-7B atteint une précision au top-1 de 58,84 % sur le benchmark Showdown Clicks, surpassant plusieurs modèles généralistes plus volumineux tout en maintenant une latence plus faible. L’agent complet WebSight obtient un taux de réussite de 68,0 % sur le benchmark WebVoyager, dépassant des systèmes issus de laboratoires tels qu’OpenAI (61,0 %) et HCompany (Runner H, 67,0 %). Parmi les tâches réalisées, WebSight répond correctement à 97,14 % des cas, témoignant d’une grande précision. Ensemble, WebSight et WebSight-7B établissent une nouvelle norme pour la navigation web visuelle, interprétable, robuste et efficace.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.