HyperAIHyperAI

Command Palette

Search for a command to run...

Embeddings Image-Text Convolutifs à Double Voie avec Perte d'Instance

Zhedong Zheng Liang Zheng Michael Garrett Yi Yang Mingliang Xu Yi-Dong Shen

Résumé

L'association d'images et de phrases exige une compréhension fine des deux modalités. Dans cet article, nous proposons un nouveau système pour plonger discriminativement l'image et le texte dans un espace visuel-linguistique commun. Dans ce domaine, la plupart des travaux existants appliquent une perte de classement (ranking loss) pour rapprocher les paires image/texte positives et éloigner les paires négatives. Cependant, l'utilisation directe de la perte de classement est difficile pour l'apprentissage du réseau, car elle part de deux caractéristiques hétérogènes pour construire une relation inter-modale. Pour résoudre ce problème, nous proposons une perte d'instance qui prend explicitement en compte la distribution des données intra-modales. Cette perte repose sur une hypothèse non supervisée selon laquelle chaque groupe d'images ou de textes peut être considéré comme une classe. Ainsi, le réseau peut apprendre la granularité fine à partir de chaque groupe d'images ou de textes. Les expériences montrent que la perte d'instance offre une meilleure initialisation des poids pour la perte de classement, permettant ainsi d'apprendre des plongements plus discriminants. De plus, les travaux existants utilisent généralement des caractéristiques pré-existantes, telles que word2vec et les caractéristiques visuelles fixes. En contribution mineure, cet article construit un réseau neuronal convolutif à double voie (dual-path convolutional network) pour apprendre les représentations d'images et de textes. L'apprentissage end-to-end permet au système d'apprendre directement à partir des données et d'utiliser pleinement la supervision. Sur deux jeux de données génériques de recherche (Flickr30k et MSCOCO), les expériences démontrent que notre méthode atteint une précision compétitive par rapport aux méthodes les plus avancées actuellement disponibles. De plus, dans le domaine de la recherche de personnes basée sur le langage, nous améliorons significativement l'état de l'art. Le code a été rendu publiquement disponible.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp