CoupleNet : Couplage de la structure globale avec les parties locales pour la détection d'objets

Les détecteurs de réseaux neuronaux convolutifs (CNN) basés sur des régions, tels que Faster R-CNN ou R-FCN, ont déjà montré des résultats prometteurs pour la détection d'objets en combinant le sous-réseau de proposition de régions et le sous-réseau de classification. Bien que R-FCN ait atteint une vitesse de détection plus élevée tout en conservant les performances de détection, l'information structurelle globale est négligée par les cartes de scores sensibles à la position. Pour exploiter pleinement les propriétés locales et globales, dans cet article, nous proposons un nouveau réseau neuronal entièrement convolutif, nommé CoupleNet, qui associe la structure globale aux parties locales pour la détection d'objets. Plus précisément, les propositions d'objets obtenues par le Réseau de Proposition de Régions (RPN) sont alimentées au module d'association composé de deux branches. Une branche utilise le regroupement RoI sensible à la position (PSRoI pooling) pour capturer l'information des parties locales de l'objet, tandis que l'autre emploie le regroupement RoI pour encoder l'information globale et contextuelle. Ensuite, nous concevons différentes stratégies d'association et méthodes de normalisation afin d'utiliser pleinement les avantages complémentaires entre les branches globales et locales. De nombreuses expériences montrent l'efficacité de notre approche. Nous obtenons des résultats à l'état de l'art sur trois jeux de données difficiles : un mAP de 82,7 % sur VOC07, 80,4 % sur VOC12 et 34,4 % sur COCO. Le code sera rendu publiquement disponible.