BIT : Modélisation temporelle bi-niveau pour une segmentation supervisée d’actions efficace

Nous abordons la tâche de segmentation supervisée d’actions, dont l’objectif est de partitionner une vidéo en segments non chevauchants, chacun représentant une action différente. Les travaux récents appliquent des modèles de type transformer pour effectuer une modélisation temporelle au niveau des trames, mais ces approches souffrent d’un coût computationnel élevé et peinent à capturer efficacement les dépendances entre actions sur de longues durées temporelles. Pour remédier à ces limites, nous proposons un cadre efficace de modélisation temporelle à deux niveaux (BIT, Bi-level Temporal modeling), qui apprend des jetons explicites d’actions pour représenter les segments d’actions, tout en effectuant en parallèle une modélisation temporelle au niveau des trames et au niveau des actions, tout en maintenant un coût computationnel faible. Notre modèle comporte (i) une branche de trames utilisant des convolutions pour apprendre les relations au niveau des trames, (ii) une branche d’actions utilisant un transformer pour modéliser les dépendances au niveau des actions à partir d’un petit ensemble de jetons d’actions, et (iii) des mécanismes d’attention croisée permettant une communication entre les deux branches. Nous adaptons et étendons une objectif de prédiction par ensemble afin que chaque jeton d’action puisse représenter un ou plusieurs segments d’actions, évitant ainsi l’apprentissage d’un grand nombre de jetons sur des vidéos longues comportant de nombreux segments. Grâce à la conception de notre branche d’actions, nous pouvons également exploiter de manière transparente les transcriptions textuelles des vidéos (lorsqu’elles sont disponibles) pour améliorer la segmentation des actions, en utilisant ces transcriptions pour initialiser les jetons d’actions. Nous évaluons notre modèle sur quatre jeux de données vidéo (deux à perspective subjective et deux à perspective objective), pour la segmentation d’actions avec et sans transcriptions, démontrant que BIT améliore significativement l’état de l’art en termes de précision tout en réduisant fortement le coût computationnel (jusqu’à 30 fois plus rapide) par rapport aux méthodes basées sur les transformers existantes.