PAN : Vers une reconnaissance d’actions rapide grâce à l’apprentissage de la persistance de l’apparence

La modélisation efficace des informations dynamiques du mouvement dans les vidéos est cruciale pour la reconnaissance d’actions. La plupart des méthodes les plus avancées s’appuient fortement sur le flux optique dense comme représentation du mouvement. Bien que la combinaison du flux optique avec les trames RGB permette d’obtenir des performances remarquables en reconnaissance, l’extraction du flux optique est extrêmement coûteuse en temps. Cela constitue inévitablement un obstacle à la reconnaissance en temps réel des actions. Dans cet article, nous proposons une approche rapide pour la reconnaissance d’actions en réduisant la dépendance au flux optique. Notre motivation s’appuie sur l’observation selon laquelle les petits déplacements aux frontières du mouvement sont les éléments les plus critiques pour distinguer les actions. À cette fin, nous introduisons une nouvelle indication de mouvement appelée Persistence of Appearance (PA). Contrairement au flux optique, notre PA se concentre davantage sur la mise en évidence des informations de mouvement aux frontières. De plus, elle est bien plus efficace, car elle se contente d’accumuler les différences ponctuelles dans l’espace des caractéristiques, plutôt que d’effectuer une recherche exhaustive sur toutes les vecteurs de mouvement possibles au niveau des patches. Notre PA est plus de 1000 fois plus rapide (8196 fps contre 8 fps) que le flux optique conventionnel en termes de vitesse de modélisation du mouvement. Pour agréger davantage les dynamiques à court terme présentes dans PA vers des dynamiques à long terme, nous proposons également une stratégie de fusion temporelle globale appelée Various-timescale Aggregation Pooling (VAP), capable de modéliser de manière adaptative les relations temporelles à longue portée à travers différentes échelles de temps. Enfin, nous intégrons la PA et la VAP proposées pour former un cadre unifié, nommé Persistent Appearance Network (PAN), doté d’une forte capacité de modélisation temporelle. Des expériences étendues sur six benchmarks exigeants de reconnaissance d’actions montrent que notre PAN surpasser les méthodes récentes de pointe, tout en consommant peu de FLOPs. Les codes et modèles sont disponibles à l’adresse suivante : https://github.com/zhang-can/PAN-PyTorch.