Faster R-CNN : Vers la détection d'objets en temps réel avec des réseaux de proposition de régions

Les réseaux de détection d'objets les plus avancés actuellement dépendent d'algorithmes de proposition de régions pour hypothéser les emplacements des objets. Des progrès tels que SPPnet et Fast R-CNN ont réduit le temps d'exécution de ces réseaux de détection, mettant en évidence le calcul des propositions de régions comme une étape limitante. Dans ce travail, nous introduisons un Réseau de Proposition de Régions (RPN) qui partage les caractéristiques convolutives sur l'image entière avec le réseau de détection, permettant ainsi des propositions de régions presque gratuites en termes de coût. Un RPN est un réseau entièrement convolutif qui prédit simultanément les limites des objets et leurs scores d'objectivité à chaque position. Le RPN est formé de manière end-to-end pour générer des propositions de régions de haute qualité, qui sont ensuite utilisées par Fast R-CNN pour la détection. Nous fusionnons davantage le RPN et Fast R-CNN en un seul réseau en partageant leurs caractéristiques convolutives---en utilisant la terminologie récemment populaire des réseaux neuronaux avec mécanismes d'« attention », la composante RPN indique au réseau unifié où regarder. Pour le modèle très profond VGG-16, notre système de détection atteint une fréquence d’images de 5 images par seconde (incluant toutes les étapes) sur une GPU, tout en obtenant une précision record dans la détection d'objets sur les jeux de données PASCAL VOC 2007, 2012 et MS COCO avec seulement 300 propositions par image. Aux compétitions ILSVRC et COCO 2015, Faster R-CNN et RPN constituent les bases des entrées primées en première place dans plusieurs catégories. Le code a été rendu publiquement disponible.