FAIT : Modélisation temporelle par attention croisée cadre-action pour une segmentation d'actions efficace

Nous étudions la segmentation d’actions supervisée, dont l’objectif est de prédire les étiquettes d’actions par trame dans une vidéo. Pour capturer les dépendances temporelles sur de longues périodes, les travaux antérieurs améliorent soit les caractéristiques par trame à l’aide de transformateurs, soit les prédictions par trame en s’appuyant sur des caractéristiques d’actions apprises. Toutefois, ces approches sont coûteuses en termes de calcul et négligent le fait que les caractéristiques par trame et celles d’action contiennent des informations complémentaires pouvant être exploitées pour renforcer les deux types de caractéristiques et améliorer le modèle temporel. Ainsi, nous proposons un cadre efficace de modélisation temporelle appelé FACT (Frame-Action Cross-attention Temporal modeling), qui effectue la modélisation temporelle en parallèle sur les caractéristiques par trame et celles d’action, et exploite cette parallélisation pour permettre un transfert itératif d’informations bidirectionnel entre les deux types de caractéristiques afin de les affiner. Le réseau FACT comporte (i) une branche trame, qui apprend les informations au niveau de la trame à l’aide de convolutions et de caractéristiques par trame ; (ii) une branche action, qui modélise les dépendances au niveau de l’action à l’aide de transformateurs et de tokens d’action ; et (iii) des mécanismes d’attention croisée permettant la communication entre les deux branches. Nous proposons également une nouvelle fonction de perte de correspondance afin de garantir qu’un token d’action encode de manière unique un segment d’action, améliorant ainsi la capture de son sémantique. Grâce à notre architecture, nous pouvons également exploiter les transcriptions textuelles des vidéos pour aider à la segmentation d’actions. Nous évaluons FACT sur quatre jeux de données vidéo (deux en perspective subjective et deux en perspective objective) pour la segmentation d’actions, avec et sans transcriptions, montrant qu’il améliore significativement la précision de l’état de l’art tout en étant plus efficace en termes de coût computationnel (trois fois plus rapide) que les méthodes basées sur les transformateurs existantes.