Skalierung der egozentrischen Vision

Diese Arbeit stellt die Pipeline vor, die dazu dient, die bisher umfangreichste Datensammlung im Bereich der egozentrischen Vision, EPIC-KITCHENS, zu erweitern. Der Aufwand resultiert in EPIC-KITCHENS-100, einer Sammlung aus 100 Stunden, 20 Millionen Frames und 90.000 Aktionen in 700 variabel langen Videos, die langfristige, unvorbereitete Aktivitäten in 45 unterschiedlichen Umgebungen mit Hilfe von kameragebundenen Kopfgeräten dokumentieren. Im Vergleich zur vorherigen Version wurde EPIC-KITCHENS-100 mithilfe einer neuartigen Pipeline annotiert, die eine dichtere (54 % mehr Aktionen pro Minute) und umfassendere Erfassung feinabgestimmter Aktionen (+128 % mehr Aktionsszenen) ermöglicht. Diese Datensammlung eröffnet neue Forschungsherausforderungen, darunter die Aktionserkennung sowie die Bewertung des „Test of Time“ – also die Frage, ob Modelle, die auf Daten aus dem Jahr 2018 trainiert wurden, auch auf neu aufgenommene Aufnahmen zwei Jahre später generalisieren können. Das Datenset ist an sechs Herausforderungen ausgerichtet: Aktionserkennung (vollständige und schwache Aufsicht), Aktionserkennung in Videos (Action Detection), Aktionserwartung (Action Anticipation), cross-modale Retrieval (aus Beschreibungen), sowie unsupervisierte Domänenanpassung für die Aktionserkennung. Für jede Herausforderung definieren wir die jeweilige Aufgabe, stellen Baseline-Modelle bereit und legen Evaluation-Metriken fest.