Inférence variationnelle décorrélée transductive pour la classification à quelques exemples

La capacité d'apprendre à partir de quelques échantillons seulement est une caractéristique distinctive de l'intelligence humaine. Le few-shot learning vise à transférer cette aptitude aux machines. Inspirés par les promesses et la puissance de l'apprentissage profond probabiliste, nous proposons un nouveau réseau d'inférence variationnelle pour le few-shot classification (dénommé TRIDENT) qui permet de découpler la représentation d'une image en variables latentes sémantiques et étiquettes, et de les inférer simultanément de manière entrelacée. Pour induire une conscience des tâches, dans le cadre des mécanismes d'inférence de TRIDENT, nous exploitons les informations provenant des images de requête et des images d'appui d'une tâche few-shot grâce à un nouveau module intégré d'extraction de caractéristiques transductif basé sur l'attention (que nous appelons AttFEX).Nos résultats expérimentaux exhaustifs confirment l'efficacité de TRIDENT et montrent que, même avec les architectures les plus simples, il établit un nouveau niveau d'état de l'art dans les jeux de données les plus couramment utilisés, miniImageNet et tieredImageNet (en offrant respectivement jusqu'à 4 % et 5 % d'amélioration), ainsi que dans le scénario récent et difficile de miniImagenet vers CUB, où il offre une marge significative (jusqu'à 20 % d'amélioration) par rapport aux meilleures méthodes existantes en cross-domain.Le code source et les expériences peuvent être consultés dans notre dépôt GitHub : https://github.com/anujinho/trident