EgoExoLearn: Ein Datensatz zur Brückenschlagung zwischen asynchronen ego- und exozentrischen Sichten von prozeduralen Aktivitäten in der realen Welt

Die Fähigkeit, die Aktivitäten anderer in den eigenen Blickwinkel zu übersetzen, ist eine grundlegende menschliche Kompetenz, die bereits in sehr frühen Lebensphasen vorhanden ist. Um dieses menschliche Vermögen besser zu verstehen, stellen wir EgoExoLearn vor, einen umfangreichen Datensatz, der den Prozess des Nachahmens menschlicher Demonstrationen emuliert. Dabei erstellen Individuen egozentrische Videos, während sie Aufgaben unter der Anleitung von Demonstrationsvideos ausführen. Mit dem Fokus auf potenzielle Anwendungen im täglichen Assistieren und professionellen Support enthält EgoExoLearn egozentrische und Demonstrationsvideodaten über 120 Stunden, die in alltäglichen Szenarien und spezialisierten Laboren aufgezeichnet wurden. Neben den Videos erfassen wir hochwertige Blicke Daten und bieten detaillierte multimodale Annotationen an, was ein Experimentierfeld für das Modellieren der menschlichen Fähigkeit darstellt, asynchrone prozedurale Aktionen aus verschiedenen Perspektiven miteinander zu verbinden. Zu diesem Zweck präsentieren wir Benchmarks wie die Queransicht-Assoziation (cross-view association), das Queransicht-Aktionsplanung (cross-view action planning) und die Queransicht-bezogene Fähigkeitsbewertung (cross-view referenced skill assessment), zusammen mit einer detaillierten Analyse. Wir erwarten, dass EgoExoLearn als wichtige Ressource dienen kann, um Aktionen zwischen verschiedenen Ansichten zu verknüpfen und damit den Weg ebnen wird für die Erstellung von KI-Agenten, die fähig sind, nahtlos durch Beobachtung von Menschen in der realen Welt zu lernen. Der Code und die Daten können unter folgendem Link abgerufen werden: https://github.com/OpenGVLab/EgoExoLearn