Apprentissage Adaptatif en Modalités Croisées avec Peu d'Exemples

Les techniques d'apprentissage métadonné basées sur des métriques ont été appliquées avec succès à des problèmes de classification en faible supervision. Dans cet article, nous proposons d'exploiter les informations intermodales pour améliorer les méthodes d'apprentissage en faible supervision basées sur des métriques. Par définition, les espaces de caractéristiques visuelles et sémantiques ont des structures différentes. Pour certains concepts, les caractéristiques visuelles peuvent être plus riches et plus discriminantes que celles du texte. Pour d'autres concepts, l'inverse peut être vrai. De plus, lorsque le soutien fourni par les informations visuelles est limité dans la classification d'images, les représentations sémantiques (appprises à partir de corpus textuels non supervisés) peuvent fournir une connaissance a priori forte et un contexte pour aider l'apprentissage. En se basant sur ces deux intuitions, nous proposons un mécanisme capable de combiner de manière adaptative les informations provenant des deux modalités selon les nouvelles catégories d'images à apprendre. À travers une série d'expériences, nous montrons que cette combinaison adaptative des deux modalités permet à notre modèle de surpasser largement les méthodes actuelles d'apprentissage en faible supervision mono-modale et d'alignement modale sur tous les bancs d'essai et scénarios en faible supervision testés. Les expériences montrent également que notre modèle peut ajuster efficacement son attention entre les deux modalités. L'amélioration des performances est particulièrement importante lorsque le nombre de shots (exemples) est très faible.