HyperAIHyperAI

Command Palette

Search for a command to run...

Un Modèle de Fusion de Séquences pour la Réponse aux Questions Vidéo et la Recherche

Youngjae Yu Jongseok Kim Gunhee Kim

Résumé

Nous présentons une approche nommée JSFusion (Joint Sequence Fusion) capable de mesurer la similarité sémantique entre toutes paires de données séquentielles multimodales (par exemple, un extrait vidéo et une phrase en langage naturel). Notre réseau de correspondance multimodale est composé de deux éléments clés. Premièrement, le tenseur sémantique conjoint génère une représentation dense et paire à paire des deux jeux de données séquentielles sous forme d'un tenseur 3D. Ensuite, le décodeur hiérarchique convolutif calcule leur score de similarité en détectant des correspondances hiérarchiques cachées entre les deux modalités séquentielles. Les deux modules utilisent des mécanismes d'attention hiérarchique qui apprennent à promouvoir les motifs de représentation bien alignés tout en éliminant ceux qui sont mal alignés, selon une approche ascendante. Bien que JSFusion soit un modèle universel applicable à toutes les données séquentielles multimodales, cette étude se concentre sur les tâches vidéo-langage, notamment la recherche multimodale et les questions-réponses sur vidéo (Video QA). Nous évaluons le modèle JSFusion dans trois tâches de recherche et de Q&A sur vidéo dans LSMDC, où notre modèle atteint les meilleures performances rapportées jusqu'à présent. Nous effectuons également des tâches de choix multiples et de recherche de films pour l'ensemble de données MSR-VTT, sur lequel notre approche surpasses nombreuses méthodes d'avant-garde actuelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Un Modèle de Fusion de Séquences pour la Réponse aux Questions Vidéo et la Recherche | Articles | HyperAI