Apprentissage d'embeddings image-texte préservant la structure profonde

Ce document propose une méthode pour apprendre des plongements conjoints d'images et de texte en utilisant un réseau neuronal à deux branches avec plusieurs couches de projections linéaires suivies de non-linéarités. Le réseau est entraîné en utilisant un objectif de grande marge qui combine des contraintes de classement inter-vues avec des contraintes de préservation de la structure locale intra-vue, inspirées par la littérature sur l'apprentissage métrique. Des expériences approfondies montrent que notre approche apporte des améliorations significatives en termes de précision pour la recherche d'images à partir du texte et vice versa. Notre méthode atteint de nouveaux résultats d'état de l'art sur les jeux de données d'images-sentences Flickr30K et MSCOCO, et montre un potentiel prometteur pour la nouvelle tâche de localisation de phrases sur le jeu de données Flickr30K Entities.