HyperAIHyperAI
il y a 2 mois

DiffusionVMR : Modèle de diffusion pour la recherche conjointe de moments vidéo et la détection de points forts

Henghao Zhao; Kevin Qinghong Lin; Rui Yan; Zechao Li
DiffusionVMR : Modèle de diffusion pour la recherche conjointe de moments vidéo et la détection de points forts
Résumé

La recherche de moments vidéo et la détection de points forts ont attiré une attention considérable dans l'ère actuelle de prolifération du contenu vidéo, visant à localiser des moments spécifiques et à estimer la pertinence des extraits en fonction des requêtes utilisateur. Étant donné que le contenu vidéo est continu dans le temps, il existe souvent un manque de frontières claires entre les événements temporels dans une vidéo. Cette ambiguïté des frontières rend difficile pour le modèle d'apprendre les correspondances texte-extrait vidéo, entraînant des performances médiocres des méthodes existantes dans la prédiction des segments cibles. Pour atténuer ce problème, nous proposons de résoudre les deux tâches conjointement sous l'angle de la génération débruitante. De plus, la frontière cible peut être localisée clairement par un raffinement itératif allant du grossier au fin. Plus précisément, un cadre novateur, DiffusionVMR, est proposé pour redéfinir les deux tâches comme un processus unifié de génération conditionnelle débruitante en combinant le modèle de diffusion. Lors de l'entraînement, du bruit gaussien est ajouté pour corrompre la vérité terrain, avec des candidats bruités produits comme entrée. Le modèle est formé pour inverser ce processus d'ajout de bruit. Pendant la phase d'inférence, DiffusionVMR initie directement à partir du bruit gaussien et affine progressivement les propositions du bruit vers une sortie significative. Il convient de noter que le DiffusionVMR hérite des avantages des modèles de diffusion qui permettent des résultats affinés itérativement lors de l'inférence, améliorant ainsi la transition des frontières du grossier au fin. De plus, l'entraînement et l'inférence du DiffusionVMR sont dissociés. Un paramètre arbitraire peut être utilisé pendant l'inférence sans nécessité d'être cohérent avec la phase d'entraînement. Des expériences approfondies menées sur cinq benchmarks largement utilisés (à savoir QVHighlight, Charades-STA, TACoS, YouTubeHighlights et TVSum) couvrant deux tâches (recherche de moments et/ou détection de points forts) ont démontré l'efficacité et la flexibilité du DiffusionVMR proposé.

DiffusionVMR : Modèle de diffusion pour la recherche conjointe de moments vidéo et la détection de points forts | Articles de recherche récents | HyperAI