Réseau de surveillance de tâche adaptatif à plusieurs échelles pour l'apprentissage peu supervisé

L'objectif de l'apprentissage à peu de exemples (few-shot learning) est de classifier des catégories non vues à partir d'un petit nombre d'exemples étiquetés. Récemment, les méthodes fondées sur l'apprentissage de métriques basées sur les informations de bas niveau ont atteint des performances satisfaisantes, car les représentations locales (Local Representations, LRs) sont plus cohérentes entre les classes vues et non vues. Toutefois, la plupart de ces méthodes traitent chaque catégorie de l'ensemble de support de manière indépendante, ce qui se révèle insuffisant pour mesurer les relations entre les caractéristiques, en particulier dans le cadre d'une tâche spécifique. De plus, les méthodes d'apprentissage de métriques basées sur les informations de bas niveau peinent à performer lorsque des objets dominants de tailles différentes coexistent dans un arrière-plan complexe. Pour surmonter ces limitations, ce papier propose un nouveau réseau, le Multi-scale Adaptive Task Attention Network (MATANet), dédié à l'apprentissage à peu de exemples. Plus précisément, nous utilisons tout d'abord un générateur de caractéristiques multi-échelle pour extraire plusieurs représentations à différentes échelles. Ensuite, un module d'attention adaptative pour la tâche est introduit afin de sélectionner les LRs les plus pertinentes au sein de l'ensemble de la tâche. Enfin, un module de similarité par classe et une couche de fusion sont employés pour calculer une similarité multi-échelle conjointe entre l'image de requête et l'ensemble de support. Des expériences étendues sur des benchmarks populaires démontrent clairement l'efficacité du MATANet proposé par rapport aux méthodes de pointe.