Exploration des forces complémentaires des représentations invariantes et équivariantes pour l'apprentissage peu supervisé

Dans de nombreux problèmes du monde réel, il est impossible de collecter un grand nombre d’échantillons étiquetés. L’apprentissage peu supervisé (Few-shot Learning, FSL) constitue l’approche dominante pour résoudre ce problème, dont l’objectif est de s’adapter rapidement à de nouvelles catégories à partir d’un nombre limité d’exemples. Les tâches FSL ont principalement été abordées en s’appuyant sur les idées issues des méthodes de méta-apprentissage basées sur les gradients et des approches d’apprentissage métrique. Toutefois, des travaux récents ont démontré l’importance d’obtenir des représentations de caractéristiques puissantes à l’aide d’un réseau d’embedding simple, capable de surpasser les algorithmes FSL existants, souvent très sophistiqués. Dans ce travail, nous nous appuyons sur cette observation et proposons un nouveau mécanisme d’entraînement qui impose simultanément l’équivariance et l’invariance par rapport à un ensemble général de transformations géométriques. L’équivariance ou l’invariance avait été utilisée de manière isolée dans les travaux antérieurs ; cependant, à notre connaissance, elles n’ont jamais été combinées conjointement. L’optimisation simultanée de ces deux objectifs contrastés permet au modèle d’apprendre des caractéristiques à la fois indépendantes des transformations d’entrée et des caractéristiques qui codent la structure des transformations géométriques. Ces deux ensembles complémentaires de caractéristiques favorisent une bonne généralisation aux nouvelles classes, même avec très peu d’échantillons. Nous obtenons des améliorations supplémentaires en intégrant une nouvelle objectif de distillation auto-supervisée. Nos expérimentations approfondies montrent que, même sans distillation de connaissance, la méthode proposée dépasse les méthodes FSL les plus avancées actuelles sur cinq jeux de données standard largement utilisés.