HyperAIHyperAI
il y a 15 jours

Analyse des pertes d'apprentissage profond par métrique pour la récupération image-texte

Hong Xuan, Xi Chen
Analyse des pertes d'apprentissage profond par métrique pour la récupération image-texte
Résumé

L’embedding visuel-sémantique (VSE) est une approche courante pour la recherche d’images et de textes, fondée sur l’apprentissage d’un espace d’embedding conjoint entre les modalités image et langage, où les similarités sémantiques sont préservées. La perte en triplet avec extraction de négatifs difficiles est devenue l’objectif de référence pour la plupart des méthodes VSE. Inspirés par les progrès récents en apprentissage métrique profond (DML) dans le domaine des images, qui ont conduit à de nouvelles fonctions de perte surpassant la perte en triplet, nous revisitons dans cet article le problème de la recherche d’objectifs plus performants pour le VSE dans le cadre du correspondance image-texte. Bien que certaines tentatives aient été faites pour concevoir des fonctions de perte basées sur le mouvement du gradient, la plupart des fonctions DML sont définies empiriquement dans l’espace d’embedding. Au lieu d’appliquer directement ces fonctions de perte, ce qui pourrait entraîner des mises à jour de gradient sous-optimales sur les paramètres du modèle, nous proposons dans ce travail un cadre novateur d’analyse des objectifs basés sur les gradients, appelé \textit{GOAL} (Gradient-based Objective AnaLysis). Ce cadre permet d’analyser systématiquement les combinaisons et les pondérations des gradients issus des fonctions DML existantes. Grâce à cette analyse, nous proposons une nouvelle famille d’objectifs dans l’espace des gradients, explorant différentes combinaisons de gradients. Lorsque les gradients ne peuvent pas être intégrés en une fonction de perte valide, nous implémentons nos objectifs de manière à opérer directement dans l’espace des gradients, plutôt que sur les pertes dans l’espace d’embedding. Des expériences approfondies montrent que nos nouveaux objectifs améliorent de manière cohérente les performances par rapport aux bases sur diverses caractéristiques visuelles/textuelles et cadres de modèles. Nous démontrons également la généralisabilité du cadre GOAL en l’adaptant à d’autres modèles utilisant des pertes de type triplet, y compris des modèles vision-langage présentant des interactions croisées fortes, atteignant ainsi des résultats de pointe sur les tâches de recherche image-texte sur les jeux de données COCO et Flick30K.

Analyse des pertes d'apprentissage profond par métrique pour la récupération image-texte | Articles de recherche récents | HyperAI