Colar : Détection en ligne efficace et efficiente des actions par consultation d'exemples

La détection d'actions en ligne a suscité un intérêt croissant de la part des chercheurs ces dernières années. Les travaux actuels modélisent les dépendances historiques et anticipent l'avenir pour percevoir l'évolution des actions au sein d'un segment vidéo et améliorer la précision de détection. Cependant, le paradigme existant ignore la modélisation au niveau des catégories et ne prête pas une attention suffisante à l'efficacité. En considérant une catégorie, ses images représentatives présentent diverses caractéristiques. Ainsi, la modélisation au niveau des catégories peut fournir une orientation complémentaire à la modélisation des dépendances temporelles. Cet article développe un mécanisme efficace de consultation d'exemples qui mesure tout d'abord la similarité entre une image et des images exemplaires, puis agrège les caractéristiques exemplaires en fonction des poids de similarité. Ce mécanisme est également efficace, car tant la mesure de similarité que l'agrégation de caractéristiques nécessitent peu de calculs. Grâce au mécanisme de consultation d'exemples, les dépendances à long terme peuvent être capturées en considérant les images historiques comme des exemples, tandis que la modélisation au niveau des catégories peut être réalisée en considérant les images représentatives d'une catégorie comme des exemples. En raison du caractère complémentaire apporté par la modélisation au niveau des catégories, notre méthode utilise une architecture légère mais atteint de nouvelles performances élevées sur trois benchmarks. De plus, en utilisant un réseau spatio-temporel pour traiter les images vidéo, notre méthode fait un bon compromis entre efficacité et performance. Le code source est disponible à l'adresse suivante : https://github.com/VividLe/Online-Action-Detection.