HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage d'une intégration conjointe avec des indices multimodaux pour la recherche vidéo-texte intermodale

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Résumé

La construction d’une représentation conjointe invariante par rapport à différentes modalités (par exemple, vidéo, langage) revêt une importance capitale dans de nombreuses applications multimédia. Bien qu’un certain nombre de succès récents aient été obtenus dans le développement de méthodes efficaces pour la recherche image-texte par apprentissage de représentations conjointes, la tâche de recherche vidéo-texte n’a pas encore été pleinement explorée. Dans cet article, nous étudions comment exploiter efficacement les indices multimodaux disponibles à partir des vidéos pour la tâche de recherche vidéo-texte à travers les modalités. À partir d’une analyse approfondie, nous proposons un cadre novateur qui exploite simultanément des caractéristiques multimodales (différentes caractéristiques visuelles, entrées audio et texte) via une stratégie de fusion, permettant une recherche plus efficace. En outre, nous examinons plusieurs fonctions de perte lors de l’entraînement de l’embedding conjoint et proposons une perte de classement par paires modifiée adaptée à la tâche de recherche. Des expériences menées sur les jeux de données MSVD et MSR-VTT démontrent que notre méthode atteint des performances significativement supérieures par rapport aux approches les plus avancées à l’état de l’art.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage d'une intégration conjointe avec des indices multimodaux pour la recherche vidéo-texte intermodale | Articles | HyperAI