LSTM à roulement-déroulement pour l’anticipation d’actions à partir de vidéos en perspective subjective

Dans cet article, nous abordons le problème de l’anticipation d’actions en perspective subjective, c’est-à-dire la prédiction des actions que porteur de la caméra effectuera dans un avenir proche ainsi que des objets avec lesquels il interagira. Plus précisément, nous proposons Rolling-Unrolling LSTM, une architecture d’apprentissage conçue pour anticiper les actions à partir de vidéos en perspective subjective. Cette méthode repose sur trois composants principaux : 1) une architecture fondée sur deux réseaux LSTM permettant de modéliser respectivement la synthèse du passé et l’inférence du futur ; 2) une technique de pré-entraînement par complétion de séquence (Sequence Completion Pre-Training) qui incite les LSTM à se concentrer sur les différentes sous-tâches ; 3) un mécanisme d’attention modale (Modality ATTention, MATT) permettant de fusionner efficacement les prédictions multimodales issues du traitement d’images RGB, de champs de flux optique et de caractéristiques basées sur les objets. L’approche proposée est évaluée sur les jeux de données EPIC-Kitchens, EGTEA Gaze+ et ActivityNet. Les expérimentations montrent que l’architecture proposée atteint un niveau d’état de l’art dans le domaine des vidéos en perspective subjective, en obtenant les meilleurs résultats au défi d’anticipation d’actions en perspective subjective EPIC-Kitchens 2019. Elle obtient également des performances compétitives sur ActivityNet par rapport aux méthodes ne reposant pas sur un pré-entraînement non supervisé, tout en se généralisant aux tâches de reconnaissance précoce d’actions et de reconnaissance d’actions. Afin de stimuler la recherche sur ce sujet exigeant, nous mettons à disposition sur notre page web (http://iplab.dmi.unict.it/rulstm) notre code source, nos modèles entraînés ainsi que les caractéristiques pré-extraites.