HyperAIHyperAI
il y a 2 mois

Apprentissage d'embeddings visuels-sémantiques robustes

Yao-Hung Hubert Tsai; Liang-Kang Huang; Ruslan Salakhutdinov
Apprentissage d'embeddings visuels-sémantiques robustes
Résumé

De nombreuses méthodes existantes pour l'apprentissage d'embeddings conjoints d'images et de texte n'utilisent que des informations supervisées provenant d'images appariées et de leurs attributs textuels. En tirant parti des récents succès de l'apprentissage non supervisé dans les réseaux neuronaux profonds, nous proposons un cadre d'apprentissage global capable d'extraire des représentations multimodales plus robustes à travers différents domaines. La méthode proposée combine des modèles d'apprentissage de représentation (c'est-à-dire des auto-encodeurs) avec des critères d'apprentissage inter-domaines (c'est-à-dire la perte de Divergence Moyenne Maximale) pour apprendre des embeddings conjoints de caractéristiques sémantiques et visuelles. Une nouvelle technique d'inférence d'adaptation aux données non supervisées est introduite afin de construire des embeddings plus complets pour les données étiquetées et non étiquetées. Nous évaluons notre méthode sur les ensembles de données Animals with Attributes et Caltech-UCSD Birds 200-2011, avec une gamme variée d'applications, allant de la reconnaissance et de la recherche d'images à zéro exemple ou à quelques exemples, dans des configurations inductives et transductives. Expérimentalement, nous montrons que notre cadre améliore significativement l'état actuel de l'art sur la plupart des tâches considérées.