Command Palette
Search for a command to run...
Ego2Web: Ein Web-Agent-Benchmark, der auf egozentrischen Videos basiert
Ego2Web: Ein Web-Agent-Benchmark, der auf egozentrischen Videos basiert
Shoubin Yu Lei Shu Antoine Yang Yao Fu Srinivas Sunkara Maria Wang Jindong Chen Mohit Bansal Boqing Gong
Zusammenfassung
Multimodale AI-Agenten automatisieren zunehmend komplexe reale Workflows, die die Ausführung von Aktionen im Web beinhalten. Aktuelle Benchmarks für Web-Agenten leiden jedoch unter einer kritischen Einschränkung: Sie konzentrieren sich ausschließlich auf webbasierte Interaktion und Wahrnehmung und bieten keine Verankerung in der physischen Umgebung des Nutzers. Diese Limitierung verhindert eine Bewertung in entscheidenden Szenarien, beispielsweise wenn ein Agent eine egozentrische visuelle Wahrnehmung (z. B. über AR-Brillen) nutzen muss, um ein Objekt in der Umgebung des Nutzers zu erkennen und anschließend eine damit verbundene Aufgabe online abzuschließen.Um diese Lücke zu schließen, stellen wir Ego2Web vor, den ersten Benchmark, der darauf ausgelegt ist, egozentrische Videowahrnehmung mit der Ausführung von Web-Agenten zu verbinden. Ego2Web verknüpft reale Aufnahmen aus der Ich-Perspektive mit Web-Aufgaben, die für eine erfolgreiche Ausführung visuelles Verständnis, Aufgabenplanung im Web und Interaktion in einer Online-Umgebung erfordern. Mithilfe einer automatisierten Daten-Generierungspipeline in Kombination mit menschlicher Verifikation und Nachbearbeitung haben wir sorgfältig konstruierte, hochwertige Video-Aufgaben-Paare über diverse Aufgabentypen hinweg kuratiert, darunter E-Commerce, Medienvorhersage, Wissensabfrage und weitere.Um eine präzise und skalierbare Evaluation für unseren Benchmark zu ermöglichen, haben wir zudem eine neuartige automatische Evaluierungsmethode namens Ego2WebJudge entwickelt, die auf dem Paradigma LLM-as-a-Judge basiert. Diese Methode erreicht eine Übereinstimmung von etwa 84 % mit menschlichen Urteilen, was deutlich über den Ergebnissen bestehender Evaluierungsmethoden liegt. Experimente mit diversen State-of-the-Art-Agenten auf unserem Ego2Web-Benchmark zeigen, dass deren Leistung schwach ist und in allen Aufgabenkategorien erhebliches Verbesserungspotenzial besteht. Darüber hinaus führten wir eine umfassende Ablationsstudie zum Task-Design durch, die die Notwendigkeit einer präzisen Videoverständnisfähigkeit in den vorgeschlagenen Aufgaben sowie die Grenzen aktueller Agenten hervorhebt.Wir hoffen, dass Ego2Web als eine entscheidende neue Ressource für die Entwicklung leistungsfähiger KI-Assistenten dient, die nahtlos in der Lage sind, die physische und die digitale Welt zu sehen, zu verstehen und in ihnen zu handeln.