il y a 17 jours

FFAVOD : Architecture de Fusion de Fonctionnalités pour la Détection d'Objets dans les Vidéos

Hughes Perreault, Guillaume-Alexandre Bilodeau, Nicolas Saunier, Maguelonne Héritier

Résumé

Une quantité importante de redondance existe entre les cadres consécutifs d'une vidéo. Les détecteurs d'objets traitent généralement une image à la fois, sans pouvoir exploiter cette redondance. Pourtant, de nombreuses applications de détection d'objets fonctionnent sur des vidéos, notamment les systèmes intelligents de transport, les systèmes avancés d'aide à la conduite et la surveillance vidéo. Ce travail vise à tirer parti de la similarité entre les cadres vidéo afin d'améliorer la qualité des détections. Nous proposons FFAVOD, qui signifie « architecture de fusion de caractéristiques pour la détection d'objets dans les vidéos ». Premièrement, nous introduisons une nouvelle architecture de détection d'objets dans les vidéos permettant au réseau de partager des cartes de caractéristiques entre cadres voisins. Deuxièmement, nous proposons un module de fusion de caractéristiques qui apprend à combiner ces cartes afin de les améliorer. Nous démontrons que l'utilisation de l'architecture proposée ainsi que du module de fusion permet d'améliorer les performances de trois détecteurs de base sur deux benchmarks de détection d'objets comprenant des séquences d'utilisateurs mobiles sur route. En outre, pour aller plus loin dans l'amélioration des performances, nous proposons une amélioration du module d'attention SpotNet. En appliquant notre architecture au détecteur SpotNet amélioré, nous obtenons des résultats de pointe sur le benchmark public UA-DETRAC ainsi que sur le jeu de données UAVDT. Le code est disponible à l'adresse suivante : https://github.com/hu64/FFAVOD.