Aligner avant de rechercher : Aligner l'image d'une publicité avec son texte pour une recherche sponsorisée multimodale précise

La recherche sponsorisée multimodale affiche des annonces multimodales (publicités) lorsque les consommateurs recherchent des produits désirés à l’aide de requêtes naturelles dans les moteurs de recherche. Étant donné que les annonces multimodales apportent des informations complémentaires pour le matching entre requêtes et annonces, la capacité à aligner efficacement les informations spécifiques aux annonces présentes tant dans les images que dans les textes est essentielle pour garantir un matching précis et flexible. Les recherches traditionnelles se concentrent principalement sur la modélisation des corrélations implicites entre images et textes pour le matching requête-annonce, tout en ignorant l’alignement des informations détaillées sur les produits, ce qui conduit à des performances de recherche sous-optimales. Dans ce travail, nous proposons un réseau d’alignement simple permettant de cartographier explicitement les parties visuelles fines des images publicitaires vers les textes correspondants, en exploitant la cohérence structurelle de la co-occurrence entre les espaces visuels et linguistiques, sans nécessiter de données d’entraînement étiquetées coûteuses. En outre, nous introduisons un nouveau modèle pour la recherche sponsorisée multimodale, capable d’effectuer de manière efficace l’alignement multimodal et le matching requête-annonce en deux étapes distinctes. Ainsi, le modèle réalise le matching des entrées multimodales dans le même espace linguistique, obtenant des performances supérieures avec seulement la moitié des données d’entraînement. Notre modèle dépasse les modèles de pointe de 2,57 % sur un grand jeu de données commerciales. En dehors de la recherche sponsorisée, notre méthode d’alignement s’applique également à la recherche multimodale générale. Nous évaluons sa performance sur une tâche typique de récupération multimodale sur le jeu de données MSCOCO, où elle obtient une amélioration cohérente, démontrant ainsi sa capacité de généralisation. Notre code est disponible à l’adresse suivante : https://github.com/Pter61/AlignCMSS/