HyperAIHyperAI

Command Palette

Search for a command to run...

Ego2Web : une référence pour les agents Web ancrée dans des vidéos à la première personne

Shoubin Yu Lei Shu Antoine Yang Yao Fu Srinivas Sunkara Maria Wang Jindong Chen Mohit Bansal Boqing Gong

Résumé

Les agents multimodaux d'intelligence artificielle automatisent de plus en plus des flux de travail complexes du monde réel impliquant une exécution en ligne sur le web. Cependant, les benchmarks actuels dédiés aux agents web souffrent d'une limitation critique : ils se concentrent exclusivement sur l'interaction et la perception basées sur le web, sans ancrage dans l'environnement physique réel de l'utilisateur. Cette lacune empêche une évaluation dans des scénarios cruciaux, tels que ceux où un agent doit recourir à une perception visuelle égocentrée (par exemple, via des lunettes de réalité augmentée) pour reconnaître un objet dans l'environnement de l'utilisateur, puis accomplir une tâche connexe en ligne.Pour combler cette lacune, nous présentons Ego2Web, le premier benchmark conçu pour faire le lien entre la perception vidéo égocentrée et l'exécution par des agents web. Ego2Web associe des enregistrements vidéo en première personne du monde réel à des tâches web nécessitant une compréhension visuelle, une planification de tâches web et une interaction dans un environnement en ligne pour une réalisation réussie. Nous exploitons un pipeline de génération automatique de données, couplé à une vérification et un affinage humains, pour constituer des paires vidéo-tâche bien structurées et de haute qualité couvrant divers types de tâches web, notamment le commerce électronique, la recherche de médias, la consultation de connaissances, etc.Afin de faciliter une évaluation précise et évolutive de notre benchmark, nous avons également développé une nouvelle méthode d'évaluation automatique « LLM-as-a-Judge », nommée Ego2WebJudge, qui atteint un accord d'environ 84 % avec le jugement humain, soit un taux nettement supérieur à celui des méthodes d'évaluation existantes. Les expériences menées avec divers agents SoTA sur Ego2Web révèlent une performance faible, avec une marge de progression substantielle dans toutes les catégories de tâches. Nous avons également mené une étude d'ablation complète sur la conception des tâches, mettant en évidence la nécessité d'une compréhension vidéo précise dans les tâches proposées ainsi que les limites des agents actuels.Nous espérons qu'Ego2Web constituera une nouvelle ressource essentielle pour le développement d'assistants IA véritablement compétents, capables de voir, de comprendre et d'agir de manière transparente à la fois dans les mondes physique et numérique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp