Pousser les limites des pipelines simples pour l’apprentissage peu supervisé : les données externes et le fine-tuning font la différence

L’apprentissage par peu d’exemples (few-shot learning, FSL) constitue un problème important et actuel en vision par ordinateur, ayant stimulé une recherche intensive portant sur de nombreuses méthodes, allant des approches complexes d’apprentissage métadonnées (meta-learning) aux bases simples d’apprentissage par transfert (transfer learning). Nous cherchons à repousser les limites d’un pipeline simple mais efficace afin de mieux répondre à des scénarios plus réalistes et pratiques de classification d’images par peu d’exemples. À cette fin, nous explorons l’apprentissage par peu d’exemples sous l’angle de l’architecture des réseaux neuronaux, ainsi que d’un pipeline en trois étapes d’actualisation du réseau selon différentes disponibilités de données : les données externes non étiquetées sont utilisées pour un pré-entraînement, les catégories de base servent à simuler des tâches par peu d’exemples pour l’entraînement métadonnées, et les données peu étiquetées d’une tâche nouvelle sont exploitées pour le finetuning. Nous examinons des questions telles que : (1) Quels bénéfices apporte le pré-entraînement sur des données externes au FSL ? (2) Comment exploiter au mieux les architectures de transformateurs les plus avancées ? et (3) Comment le finetuning atténue-t-il le décalage de domaine ? En fin de compte, nous démontrons qu’un pipeline basé sur un transformateur simple obtient des performances étonnamment bonnes sur des benchmarks standards tels que Mini-ImageNet, CIFAR-FS, CDFSL et Meta-Dataset. Notre code et une démonstration sont disponibles à l’adresse https://hushell.github.io/pmf.