Apprentissage profond de projection multimodale pour l'appariement image-texte

Le point central de l'alignement image-texte réside dans la mesure précise de la similarité entre les entrées visuelles et textuelles. Malgré les progrès significatifs réalisés dans l'association des embeddings croisés profonds avec la perte de classement bidirectionnel, la mise au point de stratégies permettant d'extraire des triplets utiles et de sélectionner des marges appropriées demeure un défi dans les applications réelles. Dans cet article, nous proposons une perte de correspondance par projection croisée (CMPM) et une perte de classification par projection croisée (CMPC) afin d'apprendre des embeddings image-texte discriminants. La perte CMPM minimise la divergence de Kullback-Leibler entre les distributions de compatibilité de projection et les distributions normalisées de correspondance définies à partir de tous les échantillons positifs et négatifs d'un mini-batch. La perte CMPC vise à catégoriser la projection vectorielle des représentations d'une modalité vers une autre en utilisant une perte norm-softmax améliorée, afin d'optimiser davantage la compacité des caractéristiques au sein de chaque classe. Des analyses approfondies et des expériences sur plusieurs jeux de données démontrent l'efficacité supérieure de l'approche proposée.