Hiérarchies de caractéristiques riches pour une détection d'objets précise et une segmentation sémantique

Les performances de détection d'objets, mesurées sur le jeu de données canonique PASCAL VOC, ont stagné ces dernières années. Les méthodes les plus performantes sont des systèmes complexes d'ensemble qui combinent généralement plusieurs caractéristiques d'image de bas niveau avec un contexte de haut niveau. Dans cet article, nous proposons un algorithme de détection simple et évolutif qui améliore la précision moyenne (mAP) de plus de 30% par rapport au meilleur résultat précédent sur VOC 2012, atteignant ainsi une mAP de 53,3%. Notre approche repose sur deux idées clés : (1) il est possible d'appliquer des réseaux neuronaux convolutifs (CNNs) à grande capacité aux propositions de régions ascendantes pour localiser et segmenter les objets ; (2) lorsque les données d'entraînement étiquetées sont rares, un pré-entraînement supervisé pour une tâche auxiliaire, suivi d'un ajustement spécifique au domaine, entraîne une augmentation significative des performances. Comme nous combinons les propositions de régions avec des CNNs, nous appelons notre méthode R-CNN : Régions avec caractéristiques CNN. Nous comparons également R-CNN à OverFeat, un détecteur à fenêtre glissante récemment proposé basé sur une architecture CNN similaire. Nous constatons que R-CNN surpass largement OverFeat sur le jeu de données ILSVRC2013 de détection à 200 classes. Le code source du système complet est disponible à l'adresse http://www.cs.berkeley.edu/~rbg/rcnn.