HyperAIHyperAI
il y a 17 jours

Récupération de texte-vidéo à renforcement d'attention dual-mode avec apprentissage contrastif à marge partielle triplet

Chen Jiang, Hong Liu, Xuzheng Yu, Qing Wang, Yuan Cheng, Jia Xu, Zhongyi Liu, Qingpei Guo, Wei Chu, Ming Yang, Yuan Qi
Récupération de texte-vidéo à renforcement d'attention dual-mode avec apprentissage contrastif à marge partielle triplet
Résumé

Ces dernières années, l’explosion des vidéos en ligne a rendu la recherche textuelle-vidéo de plus en plus essentielle et populaire pour le filtrage, la recommandation et la recherche vidéo. La recherche textuelle-vidéo vise à classer les textes ou vidéos pertinents plus haut que ceux qui ne le sont pas. Le cœur de cette tâche réside dans la mesure précise de la similarité intermodale entre textes et vidéos. Récemment, les méthodes d’apprentissage contrastif ont montré des résultats prometteurs pour la recherche textuelle-vidéo, dont la plupart se concentrent sur la construction de paires positives et négatives afin d’apprendre des représentations textuelles et visuelles. Toutefois, ces approches ne prêtent pas suffisamment attention aux paires négatives difficiles et manquent de capacité à modéliser différentes niveaux de similarité sémantique. Pour résoudre ces deux problèmes, cette étude améliore l’apprentissage contrastif à l’aide de deux techniques novatrices. Premièrement, afin d’exploiter les exemples difficiles afin d’obtenir une puissance discriminative robuste, nous proposons un nouveau module d’attention dual-modal (DMAE) pour extraire des paires négatives difficiles à partir des indices textuels et visuels. En introduisant par ailleurs une fonction de perte InfoNCE consciente des négatifs (NegNCE), nous pouvons identifier de manière adaptative toutes ces paires négatives difficiles et souligner explicitement leur impact dans la fonction de perte d’entraînement. Deuxièmement, notre travail soutient que les échantillons triplet peuvent mieux modéliser la similarité sémantique fine que les échantillons par paires. Nous proposons donc un nouveau module d’apprentissage contrastif par triplet à marge partielle (TPM-CL), qui construit des échantillons triplet ordonnés partiellement en générant automatiquement des négatifs difficiles à haute granularité pour les paires textes-vidéos correspondantes. Le TPM-CL proposé conçoit une stratégie d’omission adaptative de tokens avec interaction intermodale afin de modéliser des différences sémantiques subtiles. Des expériences étendues démontrent que l’approche proposée surpasse les méthodes existantes sur quatre jeux de données largement utilisés pour la recherche textuelle-vidéo : MSR-VTT, MSVD, DiDeMo et ActivityNet.

Récupération de texte-vidéo à renforcement d'attention dual-mode avec apprentissage contrastif à marge partielle triplet | Articles de recherche récents | HyperAI