Agents Web Incarnés : Pont entre les Règnes Physique et Numérique pour une Intelligence d'Agent Intégrée

Aujourd'hui, les agents d'IA sont majoritairement compartimentés - ils récupèrent et raisonnent sur de vastes quantités d'informations et de connaissances numériques obtenues en ligne ; ou interagissent avec le monde physique par l'intermédiaire de la perception, de la planification et de l'action incarnées - mais rarement les deux. Cette séparation limite leur capacité à résoudre des tâches nécessitant une intelligence intégrée à la fois physique et numérique, telles que la préparation de recettes trouvées en ligne, la navigation avec des données cartographiques dynamiques, ou l'interprétation de repères du monde réel à l'aide de connaissances web. Nous présentons les Agents Web Incarnés (Embodied Web Agents), un nouveau paradigme pour les agents d'IA qui fluidement relient l'incarnation et le raisonnement à grande échelle sur le web. Pour opérationnaliser ce concept, nous développons tout d'abord les environnements de tâches des Agents Web Incarnés, une plateforme de simulation unifiée qui intègre étroitement des environnements 3D réalistes tant intérieurs qu'extérieurs avec des interfaces web fonctionnelles. Sur la base de cette plateforme, nous construisons et mettons à disposition le Benchmark des Agents Web Incarnés, qui comprend une suite diversifiée de tâches incluant la cuisine, la navigation, les achats, le tourisme et la géolocalisation - toutes nécessitant un raisonnement coordonné entre les domaines physique et numérique pour une évaluation systématique de l'intelligence transdomaine. Les résultats expérimentaux révèlent des écarts significatifs entre les performances des systèmes d'IA les plus avancés et celles des humains, soulignant ainsi à la fois les défis et les opportunités au carrefour de la cognition incarnée et de l'accès aux connaissances à grande échelle sur le web. Tous les jeux de données, codes et sites web sont librement accessibles sur notre page du projet : https://embodied-web-agent.github.io/.