Pas à pas vers l'apprentissage à partir de quelques exemples avec plusieurs sémantiques

L'apprentissage à partir d'un ou de quelques exemples visuels est l'une des capacités clés des humains dès le début de leur enfance, mais il reste un défi majeur pour les systèmes d'IA modernes. Bien que des progrès considérables aient été réalisés dans l'apprentissage à partir de quelques exemples d'images, beaucoup moins d'attention a été accordée aux descriptions verbales qui sont généralement fournies aux nourrissons lorsqu'ils sont présentés avec un nouvel objet. Dans cet article, nous nous concentrons sur le rôle des sémantiques supplémentaires qui peuvent faciliter considérablement l'apprentissage visuel à partir de peu d'exemples. En nous appuyant sur les récentes avancées en matière d'apprentissage à partir de peu d'exemples avec des informations sémantiques supplémentaires, nous montrons qu'il est possible d'améliorer encore davantage les performances en combinant plusieurs et des sémantiques plus riches (étiquettes de catégories, attributs et descriptions en langage naturel). En utilisant ces idées, nous proposons à la communauté de nouveaux résultats sur les benchmarks populaires miniImageNet et CUB pour l'apprentissage à partir de peu d'exemples, obtenant des performances comparables voire supérieures aux résultats précédents de l'état de l'art pour les approches basées uniquement sur la vision et celles combinant vision et sémantique. Nous avons également mené une étude par élimination progressive (ablation study) pour examiner les composants et les choix de conception de notre approche.