HyperAIHyperAI
il y a 2 mois

Récupération de Vidéos à Partir de Texte Améliorée par l'Audio en Utilisant l'Alignement des Caractéristiques Conditionné par le Texte

Sarah Ibrahimi; Xiaohang Sun; Pichao Wang; Amanmeet Garg; Ashutosh Sanan; Mohamed Omar
Récupération de Vidéos à Partir de Texte Améliorée par l'Audio en Utilisant l'Alignement des Caractéristiques Conditionné par le Texte
Résumé

Les systèmes de recherche text-to-video ont récemment connu des progrès significatifs grâce à l'utilisation de modèles pré-entraînés formés sur de grandes bases d'images et de textes. Cependant, la plupart des méthodes les plus récentes se concentrent principalement sur la modalité vidéo tout en négligeant le signal audio pour cette tâche. Malgré cela, une avancée récente par ECLIPSE a amélioré la recherche text-to-video à long terme en développant une représentation vidéo audiovisuelle. Néanmoins, l'objectif de la tâche de recherche text-to-video est de capturer les informations complémentaires audio et vidéo pertinentes à la requête texte, plutôt que d'atteindre simplement une meilleure alignement entre l'audio et la vidéo. Pour résoudre ce problème, nous introduisons TEFAL, une méthode d'alignement de caractéristiques conditionnée au texte (TExt-conditioned Feature ALignment) qui produit des représentations audio et vidéo conditionnées par la requête texte. Au lieu d'utiliser uniquement un bloc d'attention audiovisuelle, qui pourrait supprimer les informations audio pertinentes à la requête texte, notre approche emploie deux blocs d'attention intermodale indépendants permettant au texte de s'intéresser aux représentations audio et vidéo séparément. L'efficacité de notre méthode proposée est démontrée sur quatre jeux de données de référence incluant l'audio : MSR-VTT, LSMDC, VATEX et Charades, où elle obtient des performances supérieures à celles de l'état de l'art de manière constante sur les quatre jeux de données. Cette performance est attribuée à la représentation audio supplémentaire conditionnée par la requête texte et aux informations complémentaires qu'elle apporte à la représentation vidéo conditionnée par la requête texte.

Récupération de Vidéos à Partir de Texte Améliorée par l'Audio en Utilisant l'Alignement des Caractéristiques Conditionné par le Texte | Articles de recherche récents | HyperAI