il y a 8 mois

Résumé

Les systèmes de recherche text-to-video ont récemment connu des progrès significatifs grâce à l'utilisation de modèles pré-entraînés formés sur de grandes bases d'images et de textes. Cependant, la plupart des méthodes les plus récentes se concentrent principalement sur la modalité vidéo tout en négligeant le signal audio pour cette tâche. Malgré cela, une avancée récente par ECLIPSE a amélioré la recherche text-to-video à long terme en développant une représentation vidéo audiovisuelle. Néanmoins, l'objectif de la tâche de recherche text-to-video est de capturer les informations complémentaires audio et vidéo pertinentes à la requête texte, plutôt que d'atteindre simplement une meilleure alignement entre l'audio et la vidéo. Pour résoudre ce problème, nous introduisons TEFAL, une méthode d'alignement de caractéristiques conditionnée au texte (TExt-conditioned Feature ALignment) qui produit des représentations audio et vidéo conditionnées par la requête texte. Au lieu d'utiliser uniquement un bloc d'attention audiovisuelle, qui pourrait supprimer les informations audio pertinentes à la requête texte, notre approche emploie deux blocs d'attention intermodale indépendants permettant au texte de s'intéresser aux représentations audio et vidéo séparément. L'efficacité de notre méthode proposée est démontrée sur quatre jeux de données de référence incluant l'audio : MSR-VTT, LSMDC, VATEX et Charades, où elle obtient des performances supérieures à celles de l'état de l'art de manière constante sur les quatre jeux de données. Cette performance est attribuée à la représentation audio supplémentaire conditionnée par la requête texte et aux informations complémentaires qu'elle apporte à la représentation vidéo conditionnée par la requête texte.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Sarah Ibrahimi Xiaohang Sun Pichao Wang Amanmeet Garg Ashutosh Sanan Mohamed Omar

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Sarah Ibrahimi Xiaohang Sun Pichao Wang Amanmeet Garg Ashutosh Sanan Mohamed Omar

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Récupération de Vidéos à Partir de Texte Améliorée par l'Audio en Utilisant l'Alignement des Caractéristiques Conditionné par le Texte

Sarah Ibrahimi Xiaohang Sun Pichao Wang Amanmeet Garg Ashutosh Sanan Mohamed Omar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Récupération de Vidéos à Partir de Texte Améliorée par l'Audio en Utilisant l'Alignement des Caractéristiques Conditionné par le Texte

Sarah Ibrahimi Xiaohang Sun Pichao Wang Amanmeet Garg Ashutosh Sanan Mohamed Omar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Récupération de Vidéos à Partir de Texte Améliorée par l'Audio en Utilisant l'Alignement des Caractéristiques Conditionné par le Texte

Sarah Ibrahimi Xiaohang Sun Pichao Wang Amanmeet Garg Ashutosh Sanan Mohamed Omar

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters