Aggrégation identitaire pour la détection d'objets dans les vidéos

Dans le domaine de la détection d'objets dans les vidéos (VID), une pratique courante consiste à exploiter les contextes temporels riches fournis par la vidéo pour améliorer les représentations des objets dans chaque image. Les méthodes existantes traitent les contextes temporels obtenus à partir de différents objets de manière indifférenciée et ignorent leurs identités distinctes. Intuitivement, l'agrégation des vues locales du même objet dans différentes images pourrait faciliter une meilleure compréhension de l'objet. Par conséquent, dans cet article, nous visons à permettre au modèle de se concentrer sur les contextes temporels cohérents avec l'identité de chaque objet afin d'obtenir des représentations plus complètes et de gérer les variations rapides d'apparence des objets, telles que l'occlusion et le flou de mouvement. Cependant, atteindre cet objectif sur la base des modèles VID existants pose des problèmes d'efficacité en raison de leurs propositions régionales redondantes et de leur mode de prédiction non parallèle image par image. Pour remédier à cela, nous proposons ClipVID, un modèle VID doté de couches d'Agrégation Cohérente avec l'Identité (ICA) spécialement conçues pour extraire des contextes temporels fins et cohérents avec l'identité. Il réduit efficacement les redondances grâce à la stratégie de prédiction par ensemble, rendant ainsi les couches ICA très performantes et nous permettant de concevoir une architecture qui effectue des prédictions parallèles pour l'ensemble du clip vidéo. De nombreux résultats expérimentaux montrent la supériorité de notre méthode : une performance d'état de l'art (SOTA) (84,7 % mAP) sur le jeu de données ImageNet VID tout en fonctionnant environ 7 fois plus rapidement (39,3 ips) que les précédentes SOTAs.