MultiGrain : une représentation d'image unifiée pour les classes et les instances

MultiGrain est une architecture de réseau produisant des représentations vectorielles compactes adaptées à la fois à la classification d'images et à la recherche d'objets particuliers. Elle repose sur un tronc de classification standard. La partie supérieure du réseau génère une empreinte (embedding) contenant des informations à la fois grossières et fines, permettant ainsi de reconnaître les images en fonction de la classe d'objet, de l'objet particulier ou s'il s'agit de copies déformées. Notre entraînement conjoint est simple : nous minimisons une perte d'entropie croisée pour la classification et une perte de rang qui détermine si deux images sont identiques jusqu'à l'augmentation des données, sans nécessité d'étiquettes supplémentaires. Un élément clé de MultiGrain est une couche de regroupement (pooling layer) qui tire parti des images haute résolution avec un réseau formé à une résolution plus basse.Lorsqu'elles sont fournies à un classifieur linéaire, les empreintes apprises offrent une précision de classification d'avant-garde. Par exemple, nous obtenons une précision top-1 de 79,4 % avec un ResNet-50 appris sur Imagenet, ce qui représente une amélioration absolue de +1,8 % par rapport à la méthode AutoAugment. Lorsqu'on les compare avec la similarité cosinus, ces mêmes empreintes se comparent favorablement aux meilleures performances actuelles pour la recherche d'images à des résolutions modérées.