Compromis vitesse/précision pour les détecteurs d'objets par convolution modernes

Le but de cet article est de servir de guide pour la sélection d'une architecture de détection qui atteint le bon équilibre entre vitesse, mémoire et précision pour une application et une plateforme données. À cette fin, nous examinons diverses façons de compromettre entre la précision et la vitesse ainsi que l'utilisation de la mémoire dans les systèmes modernes de détection d'objets par convolution. De nombreux systèmes réussis ont été proposés ces dernières années, mais des comparaisons directes sont difficiles en raison des extracteurs de caractéristiques de base différents (par exemple, VGG, Réseaux Résiduels), des résolutions d'image par défaut différentes, ainsi que des plateformes matérielles et logicielles différentes. Nous présentons une implémentation unifiée des systèmes Faster R-CNN [Ren et al., 2015], R-FCN [Dai et al., 2016] et SSD [Liu et al., 2015], que nous considérons comme des « méta-architectures », et nous traçons la courbe du compromis vitesse/précision générée par l'utilisation d'extracteurs de caractéristiques alternatifs et par la variation d'autres paramètres critiques tels que la taille de l'image au sein de chacune de ces méta-architectures. À une extrémité de ce spectre où la vitesse et la mémoire sont cruciales, nous présentons un détecteur capable d'atteindre des vitesses en temps réel et qui peut être déployé sur un appareil mobile. À l'autre extrémité où la précision est primordiale, nous présentons un détecteur qui atteint des performances à l'état de l'art mesurées sur la tâche de détection COCO.