HyperAIHyperAI
il y a 2 mois

LD-DETR : Loop Decoder DEtection TRansformer pour la Récupération de Moments Vidéo et la Détection de Points Saillants

Zhao, Pengcheng ; He, Zhixian ; Zhang, Fuwei ; Lin, Shujin ; Zhou, Fan
LD-DETR : Loop Decoder DEtection TRansformer pour la Récupération de Moments Vidéo et la Détection de Points Saillants
Résumé

La récupération de moments vidéo et la détection de points forts visent à trouver le contenu correspondant dans une vidéo en fonction d'une requête textuelle. Les modèles existants utilisent généralement des méthodes d'apprentissage par contraste pour aligner les caractéristiques vidéo et textuelles, puis fusionnent et extraient des informations multimodales, avant de finalement décoder ces informations multimodales à l'aide d'un décodeur Transformer. Cependant, les méthodes actuelles sont confrontées à plusieurs problèmes : (1) L'information sémantique chevauchante entre différents échantillons du jeu de données nuit aux performances d'alignement multimodal du modèle ; (2) Les modèles existants ne peuvent pas extraire efficacement les caractéristiques locales de la vidéo ; (3) Le décodeur Transformer utilisé par le modèle existant ne peut pas décoder adéquatement les caractéristiques multimodales.Pour résoudre ces problèmes, nous avons proposé le modèle LD-DETR pour les tâches de récupération de moments vidéo et de détection de points forts. Plus précisément, nous avons tout d'abord distillé la matrice de similarité en une matrice identité afin d'atténuer l'impact de l'information sémantique chevauchante. Ensuite, nous avons conçu une méthode permettant aux couches convolutives d'extraire plus efficacement des caractéristiques locales multimodales. Enfin, nous avons réintroduit la sortie du décodeur Transformer dans celui-ci pour décoder adéquatement les informations multimodales.Nous avons évalué LD-DETR sur quatre benchmarks publics et mené des expériences approfondies pour démontrer la supériorité et l'efficacité de notre approche. Notre modèle surpasses les modèles State-Of-The-Art sur les jeux de données QVHighlight, Charades-STA et TACoS. Notre code est disponible à l'adresse suivante : https://github.com/qingchen239/ld-detr.

LD-DETR : Loop Decoder DEtection TRansformer pour la Récupération de Moments Vidéo et la Détection de Points Saillants | Articles de recherche récents | HyperAI