il y a 2 mois

Détection pratique d'objets vidéo par sélection et agrégation de caractéristiques

Yuheng Shi; Tong Zhang; Xiaojie Guo

Résumé

Comparé à la détection d'objets dans les images fixes, la détection d'objets dans les vidéos (VOD) doit particulièrement prendre en compte les grandes variations inter-frames de l'apparence des objets et la diversité des détériorations dans certaines frames. En principe, la détection dans une frame donnée d'une vidéo peut bénéficier des informations contenues dans les autres frames. Ainsi, comment agréger efficacement les caractéristiques entre différentes frames est un élément clé pour résoudre ce problème. La plupart des méthodes d'agrégation actuelles sont conçues pour les détecteurs en deux étapes, souffrant de coûts de calcul élevés dus à leur nature bi-étapique. D'un autre côté, bien que les détecteurs en une étape aient connu des progrès constants dans le traitement d'images statiques, leur applicabilité à la VOD n'a pas été suffisamment explorée. Pour résoudre ces problèmes, cette étude propose une stratégie très simple mais puissante de sélection et d'agrégation de caractéristiques, permettant d'obtenir une précision significative avec un coût de calcul marginal. Plus précisément, afin de réduire le calcul massif et la consommation mémoire liés à la prédiction dense caractéristique des détecteurs d'objets en une étape, nous condensons tout d'abord les caractéristiques candidates à partir des cartes de prédiction dense. Ensuite, nous évaluons la relation entre une frame cible et ses frames de référence pour guider l'agrégation. Des expériences approfondies et des études par élimination sont menées pour valider l'efficacité de notre conception et mettre en lumière son avantage sur d'autres méthodes VOD de pointe tant en termes d'efficacité que d'efficience. Notamment, notre modèle atteint une nouvelle performance record, soit 92,9 % AP50 à plus de 30 FPS sur le jeu de données ImageNet VID avec une seule GPU 3090, ce qui le rend une option convaincante pour les applications à grande échelle ou temps réel. L'implémentation est simple et accessible via \url{https://github.com/YuHengsss/YOLOV}.