HyperAIHyperAI
il y a 2 mois

Embeddings Image-Text Convolutifs à Double Voie avec Perte d'Instance

Zheng, Zhedong ; Zheng, Liang ; Garrett, Michael ; Yang, Yi ; Xu, Mingliang ; Shen, Yi-Dong
Embeddings Image-Text Convolutifs à Double Voie avec Perte d'Instance
Résumé

L'association d'images et de phrases exige une compréhension fine des deux modalités. Dans cet article, nous proposons un nouveau système pour plonger discriminativement l'image et le texte dans un espace visuel-linguistique commun. Dans ce domaine, la plupart des travaux existants appliquent une perte de classement (ranking loss) pour rapprocher les paires image/texte positives et éloigner les paires négatives. Cependant, l'utilisation directe de la perte de classement est difficile pour l'apprentissage du réseau, car elle part de deux caractéristiques hétérogènes pour construire une relation inter-modale. Pour résoudre ce problème, nous proposons une perte d'instance qui prend explicitement en compte la distribution des données intra-modales. Cette perte repose sur une hypothèse non supervisée selon laquelle chaque groupe d'images ou de textes peut être considéré comme une classe. Ainsi, le réseau peut apprendre la granularité fine à partir de chaque groupe d'images ou de textes. Les expériences montrent que la perte d'instance offre une meilleure initialisation des poids pour la perte de classement, permettant ainsi d'apprendre des plongements plus discriminants. De plus, les travaux existants utilisent généralement des caractéristiques pré-existantes, telles que word2vec et les caractéristiques visuelles fixes. En contribution mineure, cet article construit un réseau neuronal convolutif à double voie (dual-path convolutional network) pour apprendre les représentations d'images et de textes. L'apprentissage end-to-end permet au système d'apprendre directement à partir des données et d'utiliser pleinement la supervision. Sur deux jeux de données génériques de recherche (Flickr30k et MSCOCO), les expériences démontrent que notre méthode atteint une précision compétitive par rapport aux méthodes les plus avancées actuellement disponibles. De plus, dans le domaine de la recherche de personnes basée sur le langage, nous améliorons significativement l'état de l'art. Le code a été rendu publiquement disponible.

Embeddings Image-Text Convolutifs à Double Voie avec Perte d'Instance | Articles de recherche récents | HyperAI