HyperAIHyperAI
il y a 2 mois

YOLOV : Améliorer les détecteurs d'objets sur images fixes pour la détection d'objets dans les vidéos

Yuheng Shi; Naiyan Wang; Xiaojie Guo
YOLOV : Améliorer les détecteurs d'objets sur images fixes pour la détection d'objets dans les vidéos
Résumé

La détection d'objets dans les vidéos (VID) est un défi en raison de la forte variabilité de l'apparence des objets ainsi que de la diversité des détériorations dans certaines images. Cependant, par rapport à une image fixe, la détection dans une image spécifique d'une vidéo peut bénéficier du soutien d'autres images. Par conséquent, la façon dont les caractéristiques sont agrégées entre différentes images est cruciale pour le problème de VID. La plupart des algorithmes d'agrégation existants sont conçus pour les détecteurs en deux étapes. Cependant, ces détecteurs sont généralement coûteux en termes de calculs en raison de leur nature en deux étapes. Cette étude propose une stratégie simple mais efficace pour répondre aux préoccupations susmentionnées, qui entraîne des surcoûts marginaux avec des gains significatifs en précision. Plus précisément, contrairement au pipeline traditionnel en deux étapes, nous sélectionnons des régions importantes après la détection en une étape afin d'éviter le traitement de nombreux candidats de faible qualité. De plus, nous évaluons la relation entre une image cible et les images de référence pour guider l'agrégation. Nous menons des expériences approfondies et des études d'ablation pour vérifier l'efficacité de notre conception, révélant sa supériorité par rapport aux autres approches VID de pointe tant en termes d'efficacité que d'efficience. Notre modèle basé sur YOLOX peut atteindre des performances prometteuses (par exemple, 87,5\% AP50 à plus de 30 FPS sur le jeu de données ImageNet VID avec une seule GPU 2080Ti), ce qui le rend attractif pour les applications à grande échelle ou temps réel. L'implémentation est simple ; nous avons mis à disposition les codes et modèles démonstratifs sur \url{https://github.com/YuHengsss/YOLOV}.

YOLOV : Améliorer les détecteurs d'objets sur images fixes pour la détection d'objets dans les vidéos | Articles de recherche récents | HyperAI