HyperAIHyperAI
il y a un mois

Alignements visuels-sémantiques profonds pour la génération de descriptions d'images

Andrej Karpathy; Li Fei-Fei
Alignements visuels-sémantiques profonds pour la génération de descriptions d'images
Résumé

Nous présentons un modèle capable de générer des descriptions en langage naturel d'images et de leurs régions. Notre approche exploite des jeux de données comprenant des images et leurs descriptions en phrases pour apprendre les correspondances inter-modales entre le langage et les données visuelles. Notre modèle d'alignement repose sur une combinaison novatrice de Réseaux Neuronaux Convolutifs appliqués aux régions d'images, de Réseaux Neuronaux Récursifs bidirectionnels appliqués aux phrases, et d'un objectif structuré qui aligne les deux modalités à travers un plongement multimodal. Nous décrivons ensuite une architecture de Réseaux Neuronaux Récursifs Multimodaux qui utilise les alignements inférés pour apprendre à générer de nouvelles descriptions des régions d'images. Nous montrons que notre modèle d'alignement produit des résultats au niveau de l'état de l'art dans les expériences de recherche sur les jeux de données Flickr8K, Flickr30K et MSCOCO. Enfin, nous démontrons que les descriptions générées surpassent considérablement les méthodes basées sur la recherche, tant pour les images complètes que pour un nouveau jeu de données d'annotations au niveau des régions.