HyperAIHyperAI

Command Palette

Search for a command to run...

DiffusionRet : Récupération textuelle-vidéo générative basée sur un modèle de diffusion

Peng Jin Hao Li Zesen Cheng Kehan Li Xiangyang Ji Chang Liu Li Yuan Jie Chen

Résumé

Les solutions existantes de recherche texte-vidéo sont, en essence, des modèles discriminatifs axés sur la maximisation de la probabilité conditionnelle, c’est-à-dire p(candidats|requête). Bien que simples, ce paradigme implicite néglige la distribution de données sous-jacente p(requête), ce qui rend difficile la détection des données hors distribution. Pour surmonter cette limitation, nous abordons de manière originale cette tâche du point de vue génératif, en modélisant la corrélation entre le texte et la vidéo comme leur probabilité conjointe p(candidats, requête). Ceci est réalisé grâce à un cadre de recherche texte-vidéo basé sur la diffusion (DiffusionRet), qui modélise la tâche de recherche comme un processus de génération progressive de la distribution conjointe à partir du bruit. Lors de l’entraînement, DiffusionRet est optimisé à la fois du point de vue de la génération et de la discrimination : le générateur est optimisé par une perte de génération, tandis que l’extraiteur de caractéristiques est entraîné avec une perte contrastive. Ainsi, DiffusionRet exploite habilement les forces des approches génératives et discriminatives. Des expériences étendues sur cinq benchmarks couramment utilisés pour la recherche texte-vidéo — MSRVTT, LSMDC, MSVD, ActivityNet Captions et DiDeMo — démontrent de manière convaincante l’efficacité de notre méthode, avec des performances supérieures. Plus encourageant encore, sans aucune modification, DiffusionRet se comporte également bien dans des scénarios de recherche hors distribution. Nous pensons que ce travail apporte des perspectives fondamentales aux domaines connexes. Le code est disponible à l’adresse suivante : https://github.com/jpthu17/DiffusionRet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp