il y a 9 mois

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Résumé

La construction d’une représentation conjointe invariante par rapport à différentes modalités (par exemple, vidéo, langage) revêt une importance capitale dans de nombreuses applications multimédia. Bien qu’un certain nombre de succès récents aient été obtenus dans le développement de méthodes efficaces pour la recherche image-texte par apprentissage de représentations conjointes, la tâche de recherche vidéo-texte n’a pas encore été pleinement explorée. Dans cet article, nous étudions comment exploiter efficacement les indices multimodaux disponibles à partir des vidéos pour la tâche de recherche vidéo-texte à travers les modalités. À partir d’une analyse approfondie, nous proposons un cadre novateur qui exploite simultanément des caractéristiques multimodales (différentes caractéristiques visuelles, entrées audio et texte) via une stratégie de fusion, permettant une recherche plus efficace. En outre, nous examinons plusieurs fonctions de perte lors de l’entraînement de l’embedding conjoint et proposons une perte de classement par paires modifiée adaptée à la tâche de recherche. Des expériences menées sur les jeux de données MSVD et MSR-VTT démontrent que notre méthode atteint des performances significativement supérieures par rapport aux approches les plus avancées à l’état de l’art.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Discuter sur Discord

il y a 9 mois

Multimodal

Représentation Multimodale

Video Captioning

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Discuter sur Discord

il y a 9 mois

Multimodal

Représentation Multimodale

Video Captioning

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Apprentissage d'une intégration conjointe avec des indices multimodaux pour la recherche vidéo-texte intermodale | Articles | HyperAI

Command Palette

Apprentissage d'une intégration conjointe avec des indices multimodaux pour la recherche vidéo-texte intermodale

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage d'une intégration conjointe avec des indices multimodaux pour la recherche vidéo-texte intermodale

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage d'une intégration conjointe avec des indices multimodaux pour la recherche vidéo-texte intermodale

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters