Post-traitement robuste et efficace pour la détection d'objets vidéo (REPP)

La reconnaissance d’objets dans les vidéos constitue une tâche essentielle pour de nombreuses applications, notamment la perception pour la conduite autonome, les systèmes de surveillance, les dispositifs portables ou les réseaux d’objets connectés (IoT). La reconnaissance d’objets à partir de données vidéo est plus difficile que celle à partir d’images fixes, en raison de phénomènes tels que le flou, les occlusions ou des poses rares des objets. Les méthodes actuelles de pointe reposent soit sur des détecteurs vidéo spécifiques à fort coût computationnel, soit sur des détecteurs d’images classiques couplés à un algorithme de post-traitement rapide. Ce travail présente une nouvelle pipeline de post-traitement qui surmonte certaines limitations des méthodes précédentes en introduisant une évaluation basée sur l’apprentissage de la similarité entre les détections à travers les trames. Notre méthode améliore les performances des détecteurs vidéo d’avant-garde, en particulier pour les objets en mouvement rapide, tout en nécessitant des ressources faibles. De plus, lorsqu’elle est appliquée à des détecteurs d’images fixes efficaces, comme YOLO, elle permet d’obtenir des résultats comparables à ceux de détecteurs bien plus coûteux en ressources computationnelles.