Grafit : Apprentissage de représentations d'images à grain fin avec des étiquettes grossières

Ce papier aborde le problème d'apprendre une représentation plus fine que celle fournie par les étiquettes d'entraînement. Cela permet la recherche de catégories à grain fin d'images dans une collection annotée uniquement avec des étiquettes à grain grossier.Notre réseau est appris en utilisant un objectif de classification par plus proches voisins et une perte d'instance inspirée de l'apprentissage auto-supervisé. En combinant les étiquettes à grain grossier et l'espace latent sous-jacent à grain fin, il améliore considérablement la précision des méthodes de recherche de catégories.Notre stratégie surpasses toutes les méthodes concurrentes pour la recherche ou la classification d'images à un grain plus fin que celui disponible lors de l'entraînement. Elle améliore également la précision pour les tâches d'apprentissage par transfert vers des jeux de données à grain fin, établissant ainsi le nouvel état de l'art sur cinq benchmarks publics, tels que iNaturalist-2018.