HyperAIHyperAI
il y a 11 jours

Intégration d'une guidance linguistique dans le correspondance image-texte pour la correction des faux négatifs

{Zhongtian Du, Jenq-Neng Hwang, Zerun Feng, Caili Guo, Zheng Li}
Résumé

Le matching image-texte (ITM) vise à établir une correspondance entre les images et les phrases. Il constitue une tâche fondamentale pour diverses applications de compréhension visuelle et linguistique. Toutefois, les benchmarks existants d’ITM présentent des limites dans leur construction. Ces benchmarks collectent des paires d’images et de phrases lors de leur élaboration. Par conséquent, seules les paires réellement appariées au moment de la collecte sont annotées comme positives. Toutes les autres combinaisons sont marquées comme négatives. De nombreuses corrélations pertinentes sont ainsi ignorées dans les échantillons annotés comme négatifs. Par exemple, une phrase peut correspondre à une seule image au moment de la collecte. Seule cette image est alors annotée comme positive pour cette phrase, tandis que toutes les autres images sont désignées comme négatives. Pourtant, certaines de ces images annotées comme négatives peuvent en réalité correspondre à la phrase. Ces échantillons mal étiquetés sont appelés faux négatifs. Les modèles d’ITM existants sont entraînés sur des annotations contenant ces erreurs d’étiquetage, ce qui introduit du bruit durant l’apprentissage. Dans cet article, nous proposons un cadre d’ITM intégrant une guidance linguistique (LG) afin de corriger les faux négatifs. Un modèle pré-entraîné en langage est introduit dans le cadre d’ITM afin d’identifier les faux négatifs. Pour corriger ces faux négatifs, nous proposons une fonction de perte de guidance linguistique, qui ajuste de manière adaptative les positions des faux négatifs dans l’espace d’embedding visuel-linguistique. Des expériences étendues sur deux benchmarks d’ITM montrent que notre méthode améliore les performances des modèles d’ITM existants. Pour valider l’efficacité de la correction des faux négatifs, nous menons des expériences supplémentaires sur le jeu de données ECCV Caption, qui est un ensemble de données vérifié où les faux négatifs dans les annotations ont déjà été corrigés. Les résultats expérimentaux démontrent que notre méthode permet de retrouver un plus grand nombre de faux négatifs pertinents.

Intégration d'une guidance linguistique dans le correspondance image-texte pour la correction des faux négatifs | Articles de recherche récents | HyperAI