DUET : ancrage sémantique intermodale pour l'apprentissage zéro-shot contrastif

L’apprentissage zéro-shot (ZSL) vise à prédire des classes inconnues dont les échantillons n’ont jamais été observés durant l’entraînement. Parmi les informations sémantiques les plus efficaces et largement utilisées pour la classification d’images en ZSL, on trouve les attributs, c’est-à-dire des annotations décrivant les caractéristiques visuelles au niveau de la classe. Toutefois, les méthodes actuelles peinent souvent à distinguer des différences visuelles subtiles entre images, non seulement en raison du manque d’annotations fine-grained, mais aussi en raison de l’imbalanced des attributs et de leur co-occurrence. Dans cet article, nous proposons une méthode ZSL end-to-end basée sur un transformateur, nommée DUET, qui intègre des connaissances sémantiques latentes provenant de modèles linguistiques pré-entraînés (PLMs) via un paradigme d’apprentissage multi-modal auto-supervisé. Plus précisément, nous (1) avons conçu un réseau de fondation sémantique cross-modale pour évaluer la capacité du modèle à décomposer les attributs sémantiques à partir des images ; (2) avons appliqué une stratégie d’apprentissage contrastif au niveau des attributs afin d’améliorer davantage la discrimination des caractéristiques visuelles fine-grained, en s’affranchissant de la co-occurrence et de l’imbalanced des attributs ; (3) avons introduit une politique d’apprentissage multi-tâches afin de prendre en compte simultanément plusieurs objectifs multi-modaux. Nous constatons que notre méthode DUET atteint des performances de pointe sur trois benchmarks standards de ZSL ainsi qu’un benchmark de ZSL enrichi par un graphe de connaissances. Ses composants s’avèrent efficaces, et ses prédictions sont interprétables.