HyperAIHyperAI
il y a 17 jours

Réfléchir à la généralisation dans la classification à faible exemplaire

Markus Hiller, Rongkai Ma, Mehrtash Harandi, Tom Drummond
Réfléchir à la généralisation dans la classification à faible exemplaire
Résumé

Les annotations au niveau d’une seule image décrivent souvent uniquement un sous-ensemble restreint du contenu d’une image, en particulier lorsqu’il s’agit de scènes réelles complexes. Bien que cela puisse être acceptable dans de nombreuses tâches de classification, cela pose un défi majeur pour les applications où l’ensemble des classes diffère considérablement entre les phases d’entraînement et de test. Dans cet article, nous examinons plus en détail les implications dans le cadre de l’apprentissage par quelques exemples (few-shot learning). En divisant les échantillons d’entrée en patches et en les encodant à l’aide de Transformateurs de vision (Vision Transformers), nous parvenons à établir des correspondances sémantiques entre des régions locales d’images, indépendamment de leurs classes respectives. Les embeddings de patch les plus informatifs pour la tâche considérée sont ensuite déterminés, en fonction de l’ensemble de support, par une optimisation en ligne au moment de l’inférence, offrant ainsi une interprétabilité visuelle de ce qui « compte le plus » dans l’image. Nous nous appuyons sur les avancées récentes en apprentissage non supervisé des réseaux via la modélisation d’images masquées afin de surmonter le manque d’étiquettes fines et d’apprendre la structure statistique plus générale des données, tout en évitant l’effet néfaste des annotations au niveau de l’image, également appelé supervision collapse. Les résultats expérimentaux montrent la compétitivité de notre approche, qui atteint de nouveaux états de l’art sur quatre benchmarks populaires de classification par quelques exemples, pour les scénarios à 5 exemples et à 1 exemple.