HyperAIHyperAI
il y a 17 jours

DiffusionRet : Récupération textuelle-vidéo générative basée sur un modèle de diffusion

Peng Jin, Hao Li, Zesen Cheng, Kehan Li, Xiangyang Ji, Chang Liu, Li Yuan, Jie Chen
DiffusionRet : Récupération textuelle-vidéo générative basée sur un modèle de diffusion
Résumé

Les solutions existantes de recherche texte-vidéo sont, en essence, des modèles discriminatifs axés sur la maximisation de la probabilité conditionnelle, c’est-à-dire p(candidats|requête). Bien que simples, ce paradigme implicite néglige la distribution de données sous-jacente p(requête), ce qui rend difficile la détection des données hors distribution. Pour surmonter cette limitation, nous abordons de manière originale cette tâche du point de vue génératif, en modélisant la corrélation entre le texte et la vidéo comme leur probabilité conjointe p(candidats, requête). Ceci est réalisé grâce à un cadre de recherche texte-vidéo basé sur la diffusion (DiffusionRet), qui modélise la tâche de recherche comme un processus de génération progressive de la distribution conjointe à partir du bruit. Lors de l’entraînement, DiffusionRet est optimisé à la fois du point de vue de la génération et de la discrimination : le générateur est optimisé par une perte de génération, tandis que l’extraiteur de caractéristiques est entraîné avec une perte contrastive. Ainsi, DiffusionRet exploite habilement les forces des approches génératives et discriminatives. Des expériences étendues sur cinq benchmarks couramment utilisés pour la recherche texte-vidéo — MSRVTT, LSMDC, MSVD, ActivityNet Captions et DiDeMo — démontrent de manière convaincante l’efficacité de notre méthode, avec des performances supérieures. Plus encourageant encore, sans aucune modification, DiffusionRet se comporte également bien dans des scénarios de recherche hors distribution. Nous pensons que ce travail apporte des perspectives fondamentales aux domaines connexes. Le code est disponible à l’adresse suivante : https://github.com/jpthu17/DiffusionRet.

DiffusionRet : Récupération textuelle-vidéo générative basée sur un modèle de diffusion | Articles de recherche récents | HyperAI