Que Serez-Vous Capable de Prévoir ? Anticipation des Actions Égocentriques avec des LSTM Déroulantes-Réenroulantes et l'Attention Multimodale

L'anticipation d'action égocentrique consiste à comprendre avec quels objets le porteur de la caméra interagira dans un proche avenir et quelles actions il effectuera. Nous abordons ce problème en proposant une architecture capable d'anticiper les actions à plusieurs échelles temporelles en utilisant deux LSTM pour 1) résumer le passé, et 2) formuler des prédictions sur l'avenir. La vidéo d'entrée est traitée en considérant trois modalités complémentaires : apparence (RGB), mouvement (flux optique) et objets (caractéristiques basées sur les objets). Les prédictions spécifiques à chaque modalité sont fusionnées à l'aide d'un nouveau mécanisme de Modality ATTention (MATT) qui apprend à pondérer les modalités de manière adaptative. Des évaluations approfondies sur deux jeux de données de référence à grande échelle montrent que notre méthode surpassent les travaux antérieurs jusqu'à +7% sur le jeu de données EPIC-Kitchens, qui inclut plus de 2500 actions, et se généralise au EGTEA Gaze+. Notre approche est également montrée comme se généralisant aux tâches de reconnaissance précoce d'action et de reconnaissance d'action. Notre méthode occupe la première place du classement public du défi d'anticipation d'action égocentrique EPIC-Kitchens 2019. Veuillez consulter nos pages web pour le code et des exemples :http://iplab.dmi.unict.it/rulstm - https://github.com/fpv-iplab/rulstm.