Évaluation des Embeddings de Sortie pour la Classification d'Images Fine-Grained

La classification d'images a connu des progrès significatifs ces dernières années grâce à la disponibilité de grands ensembles d'images. Cependant, la classification fine reste un défi majeur en raison du coût d'annotation des nombreuses catégories fines. Ce projet montre qu'une performance de classification convaincante peut être atteinte sur ces catégories même sans données d'entraînement étiquetées. À partir de plongements (embeddings) d'images et de classes, nous apprenons une fonction de compatibilité telle que les plongements correspondants reçoivent un score plus élevé que ceux qui ne correspondent pas ; la classification zéro-shot (à vue) d'une image se fait en trouvant l'étiquette qui donne le score de compatibilité conjoint le plus élevé. Nous utilisons des caractéristiques d'images de pointe et nous concentrons sur différents attributs supervisés et plongements de sortie non supervisés, soit dérivés de hiérarchies, soit appris à partir de corpus textuels non étiquetés. Nous établissons une amélioration substantielle de l'état de l'art sur les jeux de données Animals with Attributes et Caltech-UCSD Birds. Le plus encourageant est que nous démontrons que des plongements de sortie purement non supervisés (appris à partir de Wikipedia et améliorés avec du texte finement granulaire) obtiennent des résultats convaincants, voire surpassent l'état de l'art précédemment supervisé. En combinant différents plongements de sortie, nous améliorons encore davantage les résultats.