3D-DETNet : un détecteur de véhicules basé sur la vidéo en une seule étape

La détection de véhicules basée sur la vidéo a suscité une attention considérable au cours des dix dernières années, et de nombreuses méthodes de détection fondées sur l'apprentissage profond peuvent être appliquées à cette tâche. Cependant, ces méthodes sont conçues pour des images fixes, et leur application directe à la détection de véhicules dans les vidéos entraîne souvent des performances médiocres. Dans ce travail, nous proposons un nouveau détecteur de véhicules basé sur la vidéo en une seule étape, intégrant un réseau de convolution 3D (3DCovNet) et une perte focale, appelé 3D-DETNet. Grâce au réseau de convolution 3D et à la perte focale, notre méthode est capable de capturer des informations de mouvement et est plus adaptée pour détecter les véhicules dans les vidéos que d'autres méthodes en une seule étape conçues pour des images statiques. Les multiples cadres vidéo sont initialement alimentés à 3D-DETNet pour générer plusieurs cartes de caractéristiques spatiales, puis le sous-modèle 3DConvNet prend ces cartes de caractéristiques spatiales comme entrée pour capturer des informations temporelles qui sont ensuite transmises au modèle final entièrement convolutif pour prédire les emplacements des véhicules dans les cadres vidéo. Nous évaluons notre méthode sur le jeu de données UA-DETAC pour la détection de véhicules, et notre 3D-DETNet obtient les meilleures performances tout en maintenant une vitesse de détection supérieure de 26 images par seconde (fps) par rapport aux autres méthodes concurrentes.