HyperAIHyperAI

Command Palette

Search for a command to run...

DiffusionVMR : Modèle de diffusion pour la recherche conjointe de moments vidéo et la détection de points forts

Henghao Zhao Kevin Qinghong Lin Rui Yan Zechao Li

Résumé

La recherche de moments vidéo et la détection de points forts ont attiré une attention considérable dans l'ère actuelle de prolifération du contenu vidéo, visant à localiser des moments spécifiques et à estimer la pertinence des extraits en fonction des requêtes utilisateur. Étant donné que le contenu vidéo est continu dans le temps, il existe souvent un manque de frontières claires entre les événements temporels dans une vidéo. Cette ambiguïté des frontières rend difficile pour le modèle d'apprendre les correspondances texte-extrait vidéo, entraînant des performances médiocres des méthodes existantes dans la prédiction des segments cibles. Pour atténuer ce problème, nous proposons de résoudre les deux tâches conjointement sous l'angle de la génération débruitante. De plus, la frontière cible peut être localisée clairement par un raffinement itératif allant du grossier au fin. Plus précisément, un cadre novateur, DiffusionVMR, est proposé pour redéfinir les deux tâches comme un processus unifié de génération conditionnelle débruitante en combinant le modèle de diffusion. Lors de l'entraînement, du bruit gaussien est ajouté pour corrompre la vérité terrain, avec des candidats bruités produits comme entrée. Le modèle est formé pour inverser ce processus d'ajout de bruit. Pendant la phase d'inférence, DiffusionVMR initie directement à partir du bruit gaussien et affine progressivement les propositions du bruit vers une sortie significative. Il convient de noter que le DiffusionVMR hérite des avantages des modèles de diffusion qui permettent des résultats affinés itérativement lors de l'inférence, améliorant ainsi la transition des frontières du grossier au fin. De plus, l'entraînement et l'inférence du DiffusionVMR sont dissociés. Un paramètre arbitraire peut être utilisé pendant l'inférence sans nécessité d'être cohérent avec la phase d'entraînement. Des expériences approfondies menées sur cinq benchmarks largement utilisés (à savoir QVHighlight, Charades-STA, TACoS, YouTubeHighlights et TVSum) couvrant deux tâches (recherche de moments et/ou détection de points forts) ont démontré l'efficacité et la flexibilité du DiffusionVMR proposé.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DiffusionVMR : Modèle de diffusion pour la recherche conjointe de moments vidéo et la détection de points forts | Articles | HyperAI