DPNet : Réseau à chemins duals pour la détection d'objets en temps réel avec une attention légère

Les avancées récentes dans la compression des réseaux de neurones convolutionnels (CNN) à haute précision ont connu des progrès remarquables pour la détection d’objets en temps réel. Afin d’accélérer la vitesse de détection, les détecteurs légers reposent généralement sur un squelette à chemin unique comportant peu de couches convolutionnelles. Toutefois, cette architecture à chemin unique implique des opérations successives de pooling et de réduction d’échelle, entraînant inévitablement des cartes de caractéristiques grossières et peu précises, ce qui nuit à la localisation précise des objets. D’un autre côté, en raison de la capacité limitée du réseau, les réseaux légers récents se révèlent souvent insuffisants pour représenter efficacement des données visuelles à grande échelle. Pour résoudre ces problèmes, cette étude propose un réseau à double chemin, nommé DPNet, intégrant un mécanisme d’attention léger pour la détection d’objets en temps réel. L’architecture à double chemin permet d’extraire en parallèle des caractéristiques sémantiques de haut niveau et des détails objets de bas niveau. Bien que DPNet présente une forme presque identique à celle des détecteurs à chemin unique, ses coûts computationnels et sa taille de modèle restent sensiblement faibles. Pour renforcer la capacité de représentation, un module léger de corrélation auto (LSCM) est conçu afin de capturer les interactions globales, avec un surcoût computationnel et un nombre réduit de paramètres négligeables. Dans la partie « neck », le LSCM est étendu en un module léger de corrélation croisée (LCCM), permettant de modéliser les dépendances mutuelles entre caractéristiques de différentes échelles voisines. Des expérimentations approfondies ont été menées sur les jeux de données MS COCO et Pascal VOC 2007. Les résultats expérimentaux démontrent que DPNet atteint un état de l’art dans l’équilibre entre précision de détection et efficacité d’implémentation. Plus précisément, DPNet obtient 30,5 % de AP sur le jeu de test-dev de MS COCO et 81,5 % de mAP sur le jeu de test de Pascal VOC 2007, avec une taille de modèle d’environ 2,5 millions de paramètres, 1,04 GFLOPs de complexité computationnelle, et des cadences de traitement de 164 FPS et 196 FPS respectivement pour des images d’entrée de taille 320 × 320 sur les deux jeux de données.