ZeroDiff : Corrélation Visuelle-Sémantique Solidifiée dans l'Apprentissage par Zéro Exemple

L'apprentissage à zéro exemple (Zero-shot Learning, ZSL) vise à permettre aux classifieurs d'identifier des classes non vues. Cela est généralement réalisé en générant des caractéristiques visuelles pour les classes non vues, en se basant sur les corrélations visuelles-sémantiques apprises à partir des classes vues. Cependant, la plupart des approches actuelles de génération dépendent fortement d'un nombre suffisant d'échantillons provenant des classes vues. Notre étude révèle qu'une pénurie d'échantillons de classes vues entraîne une diminution notable des performances dans de nombreuses techniques de ZSL génératif. Nous soutenons, quantifions et démontrons expérimentalement que cette baisse est largement attribuable aux corrélations visuelles-sémantiques spurieuses.Pour résoudre ce problème, nous présentons ZeroDiff, un cadre innovant de génération pour le ZSL qui intègre des mécanismes de diffusion et des représentations contrastives afin d'améliorer les corrélations visuelles-sémantiques. ZeroDiff comprend trois composants clés : (1) l'augmentation par diffusion, qui transforme naturellement les données limitées en un ensemble élargi de données bruitées pour atténuer le surapprentissage du modèle génératif ; (2) les représentations basées sur la supervision contrastive (Supervised-Contrastive, SC), qui caractérisent dynamiquement chaque échantillon limité pour soutenir la génération de caractéristiques visuelles ; et (3) plusieurs discriminateurs de caractéristiques utilisant une approche d'apprentissage mutuel basée sur la distance de Wasserstein, évaluant les caractéristiques générées sous différents angles, y compris les sémantiques pré-définies, les représentations basées sur SC et le processus de diffusion.Des expériences approfondies menées sur trois benchmarks populaires de ZSL montrent que ZeroDiff non seulement réalise des améliorations significatives par rapport aux méthodes existantes de ZSL, mais maintient également une performance robuste même avec peu de données d'entraînement. Nos codes sont disponibles à l'adresse suivante : https://github.com/FouriYe/ZeroDiff_ICLR25.