il y a 2 mois

SSD : Détecteur MultiBox à Simple Tir

Wei Liu; Dragomir Anguelov; Dumitru Erhan; Christian Szegedy; Scott Reed; Cheng-Yang Fu; Alexander C. Berg

Résumé

Nous présentons une méthode pour la détection d'objets dans des images en utilisant un seul réseau neuronal profond. Notre approche, nommée SSD (Single Shot MultiBox Detector), discrétise l'espace de sortie des boîtes englobantes en un ensemble de boîtes par défaut sur différentes rapports d'aspect et échelles pour chaque emplacement de la carte des caractéristiques. Au moment de la prédiction, le réseau génère des scores pour la présence de chaque catégorie d'objet dans chaque boîte par défaut et produit des ajustements à la boîte pour mieux correspondre à la forme de l'objet. De plus, le réseau combine les prédictions provenant de plusieurs cartes des caractéristiques avec différentes résolutions pour traiter naturellement les objets de diverses tailles. Notre modèle SSD est simple par rapport aux méthodes nécessitant des propositions d'objets car il élimine complètement la génération de propositions et l'étape ultérieure de rééchantillonnage des pixels ou des caractéristiques, et encapsule tous les calculs dans un seul réseau. Cela rend SSD facile à entraîner et simple à intégrer dans les systèmes qui nécessitent une composante de détection. Les résultats expérimentaux sur les jeux de données PASCAL VOC, MS COCO et ILSVRC confirment que SSD offre une précision comparable aux méthodes qui utilisent une étape supplémentaire de proposition d'objets et est beaucoup plus rapide, tout en fournissant un cadre unifié pour l'entraînement et l'inférence. Comparativement aux autres méthodes mono-étape, SSD offre une bien meilleure précision, même avec une taille d'image d'entrée plus petite. Pour une entrée de $300 \times 300$, SSD atteint 72,1% mAP (mean Average Precision) sur le test VOC2007 à 58 images par seconde (FPS) sur une carte graphique Nvidia Titan X ; pour une entrée de $500 \times 500$, SSD atteint 75,1% mAP, surpassant ainsi un modèle Faster R-CNN comparable à l'état de l'art. Le code source est disponible à l'adresse suivante : https://github.com/weiliu89/caffe/tree/ssd .