Association de représentations de mots neurales avec des représentations d’image profondes à l’aide de vecteurs de Fisher

Ces dernières années, le problème d’association entre une phrase et une image a suscité un intérêt croissant. Ce travail poursuit l’exploration des limites actuelles et réalise des progrès supplémentaires en matière de performance pour les tâches d’annotation d’images et de recherche d’images à partir d’une phrase. Dans cette étude, nous utilisons le vecteur de Fisher comme représentation de phrase en agrégant les embeddings word2vec de chaque mot de la phrase. Le vecteur de Fisher est généralement défini comme les gradients de la log-vraisemblance descripteurs par rapport aux paramètres d’un modèle de mélanges de gaussiennes (GMM). Dans ce travail, nous présentons deux autres modèles de mélanges et en dérivons respectivement les expressions de l’algorithme d’expectation-maximisation et du vecteur de Fisher. Le premier est un modèle de mélanges de Laplace (LMM), fondé sur la distribution de Laplace. Le second modèle de mélange proposé est un modèle hybride gaussien-laplacien (HGLMM), basé sur une moyenne géométrique pondérée des distributions gaussienne et de Laplace. Enfin, en utilisant les nouveaux vecteurs de Fisher dérivés des HGLMM pour représenter les phrases, nous obtenons des résultats de pointe pour les tâches d’annotation d’images et de recherche d’images par phrase sur quatre benchmarks : Pascal1K, Flickr8K, Flickr30K et COCO.