Embodied Web Agents: Die Brücke zwischen physischer und digitaler Welt für eine integrierte Agentenintelligenz

Heutzutage sind KI-Agenten größtenteils getrennt voneinander – sie entweder durchsuchen und analysieren riesige Mengen an digitaler Information und Wissen, die im Internet erworben wurden, oder interagieren mit der physischen Welt durch verkörperte Wahrnehmung, Planung und Handlung – selten jedoch beides. Diese Trennung begrenzt ihre Fähigkeit, Aufgaben zu lösen, die eine integrierte physische und digitale Intelligenz erfordern, wie zum Beispiel das Kochen nach Online-Rezepten, die Navigation mit dynamischen Kartendaten oder die Interpretation von realen Landmarken unter Verwendung von Webwissen. Wir stellen Embodied Web Agents (verkörperte Webagenten) vor, ein neues Paradigma für KI-Agenten, das verkörperte Wahrnehmung und webbasiertes Schließen nahtlos verbindet. Um dieses Konzept umzusetzen, entwickeln wir zunächst die Embodied Web Agents Taskumgebungen (Aufgabenumgebungen für verkörperte Webagenten), eine einheitliche Simulationsplattform, die realistische 3D-Innen- und Außenräume eng mit funktionalen Webinterfaces verknüpft. Auf Basis dieser Plattform erstellen und veröffentlichen wir den Embodied Web Agents Benchmark (Benchmark für verkörperte Webagenten), der eine vielfältige Reihe von Aufgaben umfasst, darunter Kochen, Navigation, Einkaufen, Tourismus und Geolokalisierung – alle diese Aufgaben erfordern koordiniertes Denken in der physischen und digitalen Sphäre zur systematischen Bewertung der Intelligenz über mehrere Bereiche hinweg. Experimentelle Ergebnisse zeigen erhebliche Leistungsdifferenzen zwischen den aktuellen KI-Systemen und menschlichen Fähigkeiten auf, was sowohl Herausforderungen als auch Chancen am Schnittpunkt von verkörperter Kognition und webweiter Wissenszugänglichkeit aufzeigt. Alle Datensätze, Codes und Websites sind öffentlich zugänglich auf unserer Projektseite: https://embodied-web-agent.github.io/.