il y a 7 mois

Résumé

Nous présentons une approche nommée JSFusion (Joint Sequence Fusion) capable de mesurer la similarité sémantique entre toutes paires de données séquentielles multimodales (par exemple, un extrait vidéo et une phrase en langage naturel). Notre réseau de correspondance multimodale est composé de deux éléments clés. Premièrement, le tenseur sémantique conjoint génère une représentation dense et paire à paire des deux jeux de données séquentielles sous forme d'un tenseur 3D. Ensuite, le décodeur hiérarchique convolutif calcule leur score de similarité en détectant des correspondances hiérarchiques cachées entre les deux modalités séquentielles. Les deux modules utilisent des mécanismes d'attention hiérarchique qui apprennent à promouvoir les motifs de représentation bien alignés tout en éliminant ceux qui sont mal alignés, selon une approche ascendante. Bien que JSFusion soit un modèle universel applicable à toutes les données séquentielles multimodales, cette étude se concentre sur les tâches vidéo-langage, notamment la recherche multimodale et les questions-réponses sur vidéo (Video QA). Nous évaluons le modèle JSFusion dans trois tâches de recherche et de Q&A sur vidéo dans LSMDC, où notre modèle atteint les meilleures performances rapportées jusqu'à présent. Nous effectuons également des tâches de choix multiples et de recherche de films pour l'ensemble de données MSR-VTT, sur lequel notre approche surpasses nombreuses méthodes d'avant-garde actuelles.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Multimodal

Tâche

Youngjae Yu Jongseok Kim Gunhee Kim

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Multimodal

Tâche

Youngjae Yu Jongseok Kim Gunhee Kim

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Un Modèle de Fusion de Séquences pour la Réponse aux Questions Vidéo et la Recherche

Youngjae Yu Jongseok Kim Gunhee Kim

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Un Modèle de Fusion de Séquences pour la Réponse aux Questions Vidéo et la Recherche

Youngjae Yu Jongseok Kim Gunhee Kim

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Un Modèle de Fusion de Séquences pour la Réponse aux Questions Vidéo et la Recherche

Youngjae Yu Jongseok Kim Gunhee Kim

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters