Transformateur Visuel de Région d'Interaction pour l'Anticipation d'Actions Egocentriques

L’interaction homme-objet constitue l’un des indices visuels les plus importants, et nous proposons une nouvelle approche pour représenter ces interactions dans le cadre de l’anticipation d’actions en perspective egocentrique. Nous introduisons une variante originale du modèle transformer, capable de modéliser les interactions en calculant les changements d’apparence des objets et des mains humaines induits par l’exécution des actions, et en utilisant ces changements pour affiner la représentation vidéo. Plus précisément, nous modélisons les interactions entre les mains et les objets à l’aide d’un mécanisme d’attention croisée spatiale (Spatial Cross-Attention, SCA), et enrichissons davantage cette modélisation en intégrant des informations contextuelles via une attention croisée de trajectoire (Trajectory Cross-Attention), afin d’obtenir des tokens d’interaction affinés par le contexte environnemental. À partir de ces tokens, nous construisons une représentation vidéo centrée sur les interactions, adaptée à l’anticipation d’actions. Nous désignons notre modèle InAViT, qui atteint des performances de pointe dans l’anticipation d’actions sur de grands jeux de données egocentriques, à savoir EPICKITCHENS100 (EK100) et EGTEA Gaze+. InAViT surpasses d’autres méthodes basées sur des transformers visuels, y compris celles fondées sur une représentation vidéo centrée sur les objets. Sur le serveur d’évaluation EK100, InAViT se classe en tête du classement public (au moment de la soumission), dépassant le deuxième meilleur modèle de 3,3 % en moyenne de rappel au top-5.