HyperAIHyperAI
il y a 2 mois

Un Modèle de Fusion de Séquences pour la Réponse aux Questions Vidéo et la Recherche

Youngjae Yu; Jongseok Kim; Gunhee Kim
Un Modèle de Fusion de Séquences pour la Réponse aux Questions Vidéo et la Recherche
Résumé

Nous présentons une approche nommée JSFusion (Joint Sequence Fusion) capable de mesurer la similarité sémantique entre toutes paires de données séquentielles multimodales (par exemple, un extrait vidéo et une phrase en langage naturel). Notre réseau de correspondance multimodale est composé de deux éléments clés. Premièrement, le tenseur sémantique conjoint génère une représentation dense et paire à paire des deux jeux de données séquentielles sous forme d'un tenseur 3D. Ensuite, le décodeur hiérarchique convolutif calcule leur score de similarité en détectant des correspondances hiérarchiques cachées entre les deux modalités séquentielles. Les deux modules utilisent des mécanismes d'attention hiérarchique qui apprennent à promouvoir les motifs de représentation bien alignés tout en éliminant ceux qui sont mal alignés, selon une approche ascendante. Bien que JSFusion soit un modèle universel applicable à toutes les données séquentielles multimodales, cette étude se concentre sur les tâches vidéo-langage, notamment la recherche multimodale et les questions-réponses sur vidéo (Video QA). Nous évaluons le modèle JSFusion dans trois tâches de recherche et de Q&A sur vidéo dans LSMDC, où notre modèle atteint les meilleures performances rapportées jusqu'à présent. Nous effectuons également des tâches de choix multiples et de recherche de films pour l'ensemble de données MSR-VTT, sur lequel notre approche surpasses nombreuses méthodes d'avant-garde actuelles.

Un Modèle de Fusion de Séquences pour la Réponse aux Questions Vidéo et la Recherche | Articles de recherche récents | HyperAI