Réexamen de la mesure image-à-classe basée sur des descripteurs locaux pour l'apprentissage à quelques exemples

L'apprentissage à faibles exemples (few-shot learning) dans la classification d'images vise à apprendre un classifieur pour catégoriser des images lorsque très peu d'exemples d'entraînement sont disponibles pour chaque classe. Des travaux récents ont obtenu des performances de classification prometteuses, où une mesure basée sur les caractéristiques au niveau de l'image est généralement utilisée. Dans cet article, nous soutenons que ce type de mesure peut ne pas être suffisamment efficace en raison de la rareté des exemples dans l'apprentissage à faibles exemples. Au lieu de cela, nous pensons qu'une mesure basée sur les descripteurs locaux devrait être adoptée, inspirée par son succès surprenant lors de l'ère des caractéristiques invariantes locales. Plus précisément, en s'appuyant sur le mécanisme d'entraînement épisodique récent, nous proposons un réseau neuronal profond du plus proche voisin (Deep Nearest Neighbor Neural Network, abrégé DN4) et nous le formons de manière end-to-end. Sa principale différence avec la littérature est le remplacement de la mesure basée sur les caractéristiques au niveau de l'image dans la couche finale par une mesure basée sur les descripteurs locaux entre l'image et la classe. Cette mesure est effectuée en ligne via une recherche du $k$-plus proche voisin sur les descripteurs locaux profonds des cartes de caractéristiques convolutives. Le DN4 proposé non seulement apprend les descripteurs locaux optimaux pour la mesure image-classe, mais utilise également l'efficacité accrue de cette mesure en cas de rareté d'exemples, grâce à l'échangeabilité des motifs visuels entre les images de la même classe. Notre travail aboutit à un cadre simple, efficace et économiquement viable pour l'apprentissage à faibles exemples. Les études expérimentales menées sur des jeux de données de référence montrent constamment sa supériorité par rapport aux méthodes avancées existantes, avec une amélioration absolue maximale de 17\% par rapport à la méthode suivante la plus performante. Le code source est disponible à partir du lien suivant : \UrlFont{https://github.com/WenbinLee/DN4.git}.