Propositions apprenables spatio-temporelles pour la détection d'objets vidéo en bout-en-bout

Cet article présente une nouvelle approche pour générer des propositions d’objets en exploitant l’information temporelle dans le cadre de la détection d’objets dans les vidéos. Dans les détecteurs modernes de vidéos basés sur des régions, l’agrégation des caractéristiques repose fortement sur des propositions apprises à partir d’un RPN (Region Proposal Network) appliqué à une seule trame. Cette approche entraîne inévitablement l’ajout de composants supplémentaires tels que le NMS (Non-Maximum Suppression) et produit des propositions peu fiables sur les trames de mauvaise qualité. Pour surmonter ces limitations, nous proposons SparseVOD, une nouvelle architecture de détection d’objets dans les vidéos qui exploite l’information temporelle via Sparse R-CNN. Plus précisément, nous introduisons deux modules dans la tête dynamique de Sparse R-CNN. Premièrement, un module d’extraction de caractéristiques temporelles basé sur l’opération Temporal RoI Align est ajouté pour extraire les caractéristiques des propositions de régions d’intérêt (RoI). Deuxièmement, inspirés par l’agrégation sémantique au niveau de la séquence, nous intégrons un module d’agrégation de caractéristiques sémantiques guidé par l’attention, afin d’améliorer la représentation des caractéristiques des objets avant la détection. La méthode proposée, SparseVOD, atténue efficacement le surcroît de complexité des méthodes de post-traitement complexes et rend l’ensemble du pipeline entièrement entraînable en end-to-end. Des expériences étendues montrent que notre approche améliore significativement le Sparse R-CNN basé sur une seule trame de 8 % à 9 % en termes de mAP. En outre, en atteignant un mAP de 80,3 % sur le jeu de données ImageNet VID avec un modèle de base ResNet-50, SparseVOD dépasse de manière significative les méthodes existantes basées sur des propositions, notamment aux seuils d’IoU croissants (IoU > 0,5).