Command Palette
Search for a command to run...
SNIPER : Formation efficace multi-échelle
SNIPER : Formation efficace multi-échelle
Bharat Singh Mahyar Najibi Larry S. Davis
Résumé
Nous présentons SNIPER, un algorithme permettant une formation multi-échelle efficace dans les tâches de reconnaissance visuelle au niveau des instances. Au lieu de traiter chaque pixel d'une pyramide d'images, SNIPER traite des régions contextuelles autour des instances véritables (appelées chips) à l'échelle appropriée. Pour l'échantillonnage du fond, ces régions contextuelles sont générées à partir de propositions extraites d'un réseau de proposition de régions formé avec un programme d'apprentissage court. Ainsi, le nombre de chips générés par image pendant la formation s'adapte en fonction de la complexité de la scène. SNIPER ne traite que 30% de pixels supplémentaires par rapport à la formation mono-échelle couramment utilisée à 800x1333 pixels sur le jeu de données COCO. Cependant, il observe également des échantillons provenant de résolutions extrêmes de la pyramide d'images, comme 1400x2000 pixels. Comme SNIPER opère sur des chips rééchantillonnés à faible résolution (512x512 pixels), il peut avoir une taille de lot aussi importante que 20 sur un seul GPU même avec un squelette ResNet-101. Par conséquent, il peut bénéficier de la normalisation par lots lors de la formation sans nécessiter la synchronisation des statistiques de normalisation par lots entre les GPU. SNIPER rapproche la formation pour les tâches de reconnaissance visuelle au niveau des instances, telles que la détection d'objets, du protocole utilisé pour la classification d'images et suggère que le principe généralement admis selon lequel il est important de former sur des images haute résolution pour ces tâches pourrait être incorrect. Notre implémentation basée sur Faster-RCNN avec un squelette ResNet-101 obtient un mAP (mean Average Precision) de 47,6% sur le jeu de données COCO pour la détection de boîtes englobantes et peut traiter 5 images par seconde lors du processus d'inférence avec un seul GPU. Le code source est disponible à l'adresse suivante : https://github.com/MahyarNajibi/SNIPER/.