ThunderNet : Vers la détection d'objets générique en temps réel

La détection d'objets génériques en temps réel sur des plateformes mobiles est une tâche cruciale mais complexe en vision par ordinateur. Cependant, les détecteurs basés sur les CNN précédents souffrent d'un coût de calcul énorme, ce qui les empêche de réaliser des inférences en temps réel dans des scénarios à ressources limitées. Dans cet article, nous examinons l'efficacité des détecteurs en deux étapes pour la détection générique en temps réel et proposons un détecteur léger en deux étapes nommé ThunderNet. Dans la partie backbone, nous analysons les inconvénients des backbones légères précédentes et présentons un backbone léger conçu spécifiquement pour la détection d'objets. Dans la partie de détection, nous explorons une conception de RPN (Region Proposal Network) et de tête de détection extrêmement efficace. Pour générer une représentation des caractéristiques plus discriminante, nous concevons deux blocs architecturaux efficaces : le Context Enhancement Module (CEM) et le Spatial Attention Module (SAM). Enfin, nous étudions l'équilibre entre la résolution d'entrée, le backbone et la tête de détection. Comparé aux détecteurs légers en une étape, ThunderNet offre des performances supérieures avec seulement 40 % du coût de calcul sur les benchmarks PASCAL VOC et COCO. Sans recours à des techniques supplémentaires, notre modèle fonctionne à 24,1 images par seconde sur un appareil basé sur ARM. Selon nos connaissances, c'est le premier détecteur en temps réel signalé sur des plateformes ARM. Notre code source et nos modèles sont disponibles à l'adresse \url{https://github.com/qinzheng93/ThunderNet}.