Une analyse de l'invariance d'échelle dans la détection d'objets - SNIP

Une analyse de différentes techniques pour la reconnaissance et la détection d'objets sous une variation d'échelle extrême est présentée. Les conceptions spécifiques à l'échelle et invariantes à l'échelle des détecteurs sont comparées en les entraînant avec différentes configurations de données d'entrée. En évaluant les performances de différentes architectures de réseaux pour la classification d'objets petits sur ImageNet, nous montrons que les CNNs ne sont pas robustes aux changements d'échelle. Sur la base de cette analyse, nous proposons d'entraîner et de tester les détecteurs sur les mêmes échelles d'une pyramide d'images. Étant donné que les objets petits et grands sont respectivement difficiles à reconnaître à des échelles plus petites et plus grandes, nous présentons un nouveau schéma d'entraînement appelé Normalisation d'Échelle pour Pyramides d'Images (SNIP), qui rétropropage sélectivement les gradients des instances d'objets de différentes tailles en fonction de l'échelle de l'image. Sur le jeu de données COCO, nos performances avec un seul modèle atteignent 45,7 % et un ensemble de 3 réseaux obtient un mAP de 48,3 %. Nous utilisons des modèles pré-entraînés ImageNet-1000 prêts à l'emploi et ne faisons qu'un entraînement supervisé par boîtes englobantes. Notre soumission a remporté le prix du Meilleur Travail Étudiant au défi COCO 2017. Le code sera mis à disposition sur \url{http://bit.ly/2yXVg4c}.