HyperAIHyperAI
il y a 2 mois

Liaison d'images et de texte avec des réseaux bidirectionnels

Aviv Eisenschtat; Lior Wolf
Liaison d'images et de texte avec des réseaux bidirectionnels
Résumé

Liaison de deux sources de données est un élément fondamental dans de nombreux problèmes de vision par ordinateur. L'Analyse Canonique des Corrélations (CCA) réalise cette liaison en utilisant un optimiseur linéaire pour maximiser la corrélation entre les deux vues. Des travaux récents font appel à des modèles non-linéaires, notamment des techniques d'apprentissage profond, qui optimisent la perte CCA dans un certain espace de caractéristiques. Dans cet article, nous présentons une nouvelle architecture de réseau neuronal bidirectionnel pour la tâche de correspondance de vecteurs issus de deux sources de données. Notre approche utilise deux canaux de réseau neuronal jumeaux qui projettent les deux vues dans un espace commun, maximisant leur corrélation grâce à la perte euclidienne. Nous établissons un lien direct entre la perte basée sur la corrélation et la perte euclidienne, permettant ainsi l'utilisation de la perte euclidienne pour la maximisation de la corrélation. Pour surmonter les problèmes courants d'optimisation de régression euclidienne, nous adaptons des techniques bien connues à notre problème, notamment la normalisation par lots (batch normalization) et le décrochage (dropout). Nous montrons des résultats d'état de l'art sur plusieurs tâches de correspondance en vision par ordinateur, y compris le couplage d'images MNIST et le couplage phrase-image sur les jeux de données Flickr8k, Flickr30k et COCO.

Liaison d'images et de texte avec des réseaux bidirectionnels | Articles de recherche récents | HyperAI