Command Palette
Search for a command to run...
Ego2Web : une référence pour les agents Web ancrée dans des vidéos à la première personne
Ego2Web : une référence pour les agents Web ancrée dans des vidéos à la première personne
Shoubin Yu Lei Shu Antoine Yang Yao Fu Srinivas Sunkara Maria Wang Jindong Chen Mohit Bansal Boqing Gong
Résumé
Les agents multimodaux d'intelligence artificielle automatisent de plus en plus des flux de travail complexes du monde réel impliquant une exécution en ligne sur le web. Cependant, les benchmarks actuels dédiés aux agents web souffrent d'une limitation critique : ils se concentrent exclusivement sur l'interaction et la perception basées sur le web, sans ancrage dans l'environnement physique réel de l'utilisateur. Cette lacune empêche une évaluation dans des scénarios cruciaux, tels que ceux où un agent doit recourir à une perception visuelle égocentrée (par exemple, via des lunettes de réalité augmentée) pour reconnaître un objet dans l'environnement de l'utilisateur, puis accomplir une tâche connexe en ligne.Pour combler cette lacune, nous présentons Ego2Web, le premier benchmark conçu pour faire le lien entre la perception vidéo égocentrée et l'exécution par des agents web. Ego2Web associe des enregistrements vidéo en première personne du monde réel à des tâches web nécessitant une compréhension visuelle, une planification de tâches web et une interaction dans un environnement en ligne pour une réalisation réussie. Nous exploitons un pipeline de génération automatique de données, couplé à une vérification et un affinage humains, pour constituer des paires vidéo-tâche bien structurées et de haute qualité couvrant divers types de tâches web, notamment le commerce électronique, la recherche de médias, la consultation de connaissances, etc.Afin de faciliter une évaluation précise et évolutive de notre benchmark, nous avons également développé une nouvelle méthode d'évaluation automatique « LLM-as-a-Judge », nommée Ego2WebJudge, qui atteint un accord d'environ 84 % avec le jugement humain, soit un taux nettement supérieur à celui des méthodes d'évaluation existantes. Les expériences menées avec divers agents SoTA sur Ego2Web révèlent une performance faible, avec une marge de progression substantielle dans toutes les catégories de tâches. Nous avons également mené une étude d'ablation complète sur la conception des tâches, mettant en évidence la nécessité d'une compréhension vidéo précise dans les tâches proposées ainsi que les limites des agents actuels.Nous espérons qu'Ego2Web constituera une nouvelle ressource essentielle pour le développement d'assistants IA véritablement compétents, capables de voir, de comprendre et d'agir de manière transparente à la fois dans les mondes physique et numérique.