Rééchelonnage de la vision égocentrique

Cet article présente le pipeline mis au point pour étendre le plus grand ensemble de données en vision égocentrique, à savoir EPIC-KITCHENS. Ce travail aboutit à la création d’EPIC-KITCHENS-100, un ensemble comprenant 100 heures, 20 millions de cadres, 90 000 actions réparties sur 700 vidéos de longueurs variables, capturant des activités prolongées et non scriptées dans 45 environnements différents, à l’aide de caméras portées sur la tête. Par rapport à sa version précédente, EPIC-KITCHENS-100 a été annoté grâce à un nouveau pipeline permettant des annotations plus denses (54 % d’actions supplémentaires par minute) et plus complètes des actions à granularité fine (+128 % de segments d’actions supplémentaires). Cet ensemble donne lieu à de nouveaux défis, tels que la détection d’actions et l’évaluation du « test du temps » — c’est-à-dire la capacité des modèles entraînés sur des données collectées en 2018 à s’adapter à de nouvelles séquences capturées deux ans plus tard. L’ensemble est aligné sur six défis : reconnaissance d’actions (avec supervision complète et faible), détection d’actions, anticipation d’actions, recherche multimodale (à partir de légendes), ainsi que adaptation de domaine non supervisée pour la reconnaissance d’actions. Pour chacun de ces défis, nous définissons la tâche, fournissons des modèles de base (baselines) et proposons des métriques d’évaluation.