Apprentissage de la prévision des actions égocentriques par l'imagination

Anticiper les actions avant leur exécution est essentiel pour un large éventail d’applications pratiques, notamment la conduite autonome et la robotique. Dans cet article, nous étudions la tâche d’anticipation d’actions en perspective égocentrique, qui consiste à prédire l’action future quelques secondes avant qu’elle ne soit exécutée à partir de vidéos égocentriques. Les approches antérieures se concentrent sur la synthèse du contenu observé et prédisent directement l’action future à partir des observations passées. Nous pensons qu’il serait bénéfique pour l’anticipation d’actions d’extraire certains indices afin de compenser les informations manquantes des trames non observées. Nous proposons donc de décomposer l’anticipation d’actions en une série de prédictions de caractéristiques futures. Nous imaginons comment les caractéristiques visuelles évolueront dans un avenir proche, puis prédisons les étiquettes d’action futures à partir de ces représentations imaginées. Contrairement aux méthodes précédentes, notre modèle ImagineRNN est optimisé par apprentissage contrastif plutôt que par régression de caractéristiques. Nous utilisons une tâche auxiliaire pour entraîner ImagineRNN, à savoir sélectionner l’état futur correct parmi des distracteurs. Nous améliorons davantage ImagineRNN grâce à une anticipation résiduelle, en modifiant sa cible pour qu’elle prédise la différence entre les caractéristiques de trames adjacentes plutôt que le contenu de la trame elle-même. Cela pousse le réseau à se concentrer davantage sur notre objectif principal, à savoir l’anticipation de l’action future, car la différence entre les caractéristiques de trames adjacentes est plus significative pour la prédiction du futur. Des expériences étendues sur deux grands jeux de données d’actions égocentriques confirment l’efficacité de notre méthode. Notre approche surpasse significativement les méthodes précédentes, tant sur l’ensemble de test vu que sur l’ensemble de test non vu dans le cadre du défi EPIC Kitchens pour l’anticipation d’actions.