AEI : Interaction Acteurs-Environnement avec Attention Adaptative pour la Génération de Propositions d'Actions Temporelles

Les humains perçoivent généralement l'établissement d'une action dans une vidéo à travers l'interaction entre un acteur et l'environnement environnant. Une action ne commence que lorsque l'acteur principal de la vidéo commence à interagir avec l'environnement, et elle se termine lorsque l'acteur principal cesse cette interaction. Malgré les progrès considérables réalisés dans la génération de propositions d'actions temporelles, la plupart des travaux existants ignorent ce fait et laissent leur modèle apprendre à proposer des actions comme une boîte noire. Dans cet article, nous tentons de simuler cette capacité humaine en proposant le réseau d'Interaction Acteur-Environnement (AEI) pour améliorer la représentation vidéo pour la génération de propositions d'actions temporelles. L'AEI comprend deux modules, à savoir la représentation visuelle basée sur la perception (PVR) et le module de correspondance des frontières (BMM). Le PVR représente chaque extrait vidéo en prenant en compte les relations entre humains et les relations entre humains et l'environnement grâce au mécanisme d'attention adaptative proposé. Ensuite, la représentation vidéo est utilisée par le BMM pour générer des propositions d'actions. L'AEI est évalué de manière exhaustive sur les jeux de données ActivityNet-1.3 et THUMOS-14, pour les tâches de proposition et de détection d'actions temporelles, avec deux architectures de correspondance des frontières (à savoir basées sur CNN et GCN) et deux classifieurs (à savoir Unet et P-GCN). Notre AEI surpasse robustement les méthodes de pointe avec des performances remarquables et une généralisation pour la génération de propositions d'actions temporelles ainsi que pour la détection d'actions temporelles.