Échelle de la vision égocentrique : Le jeu de données EPIC-KITCHENS

La vision à la première personne suscite de plus en plus d'intérêt en raison de la perspective unique qu'elle offre sur les interactions des personnes avec les objets, leur attention et même leurs intentions. Cependant, les progrès dans ce domaine complexe ont été relativement lents en raison du manque de jeux de données suffisamment volumineux. Dans cet article, nous présentons EPIC-KITCHENS, un benchmark vidéo égocentrique à grande échelle enregistré par 32 participants dans leurs environnements de cuisine habituels. Nos vidéos dépeignent des activités quotidiennes non scénarisées : nous avons simplement demandé à chaque participant de commencer l'enregistrement dès qu'ils entraient dans leur cuisine. Les enregistrements ont eu lieu dans 4 villes (en Amérique du Nord et en Europe) auprès de participants appartenant à 10 nationalités différentes, ce qui a abouti à une grande diversité de styles culinaires. Notre jeu de données comprend 55 heures de vidéo composées de 11,5 millions d'images, que nous avons étiquetées de manière dense pour un total de 39 600 segments d'action et 454 300 boîtes englobantes d'objets. Notre annotation est unique car nous avons demandé aux participants de commenter leurs propres vidéos (après l'enregistrement), reflétant ainsi leur intention réelle, et nous avons sollicité des vérités terrain basées sur ces commentaires. Nous décrivons nos défis liés aux objets, aux actions et à l'anticipation, et évaluons plusieurs modèles de référence sur deux séries de tests, des cuisines vues et non vues. Page du jeu de données et du projet : http://epic-kitchens.github.io