Sélection intelligente des trames pour la reconnaissance d’actions

La reconnaissance d’actions est un processus computationnellement coûteux. Dans cet article, nous abordons le problème de la sélection de trames afin d’améliorer la précision de la reconnaissance d’actions. Plus précisément, nous montrons que la sélection de bonnes trames améliore les performances même dans le domaine des vidéos courtes et tronquées (trimmed videos). Des travaux récents ont réussi à exploiter efficacement la sélection de trames pour des vidéos longues et non tronquées, où une grande partie du contenu est sans pertinence et facilement éliminable. Toutefois, dans ce travail, nous nous concentrons sur le problème plus classique de la reconnaissance d’actions sur des vidéos courtes et tronquées. Nous affirmons qu’une bonne sélection de trames peut non seulement réduire le coût computationnel de la reconnaissance d’actions, mais aussi améliorer la précision en éliminant les trames difficiles à classifier. Contrairement aux approches antérieures qui sélectionnent les trames une par une, nous proposons une méthode qui les considère de manière conjointe. Cela conduit à une sélection plus efficace, où les trames pertinentes sont mieux réparties au cours de la vidéo, comme des instantanés qui racontent une histoire. Nous appelons cette méthode SMART (Selective Multi-frame Analysis for Recognition Tasks). Nous l’évaluons en combinaison avec différentes architectures de base (backbones) et sur plusieurs benchmarks (Kinetics, Something-Something, UCF101). Nos résultats montrent que la sélection SMART améliore de manière cohérente la précision par rapport aux autres stratégies de sélection de trames, tout en réduisant le coût computationnel d’un facteur compris entre 4 et 10. En outre, nous démontrons que, lorsque l’objectif principal est la performance de reconnaissance, notre stratégie de sélection surpasser des modèles récents d’état de l’art ainsi que des méthodes de sélection de trames sur divers benchmarks (UCF101, HMDB51, FCVID, ActivityNet).