HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

PIDRo : Attention Isomérique Parallèle avec Routage Dynamique pour la Recherche Texte-Vidéo

{Edmund Y. Lam Youliang Yan Songcen Xu Hang Xu Jiaxi Gu Weimian Li Jianzhuang Liu Bin Shao Renjing Pei Peiyan Guan}

PIDRo : Attention Isomérique Parallèle avec Routage Dynamique pour la Recherche Texte-Vidéo

Résumé

La recherche textuelle vidéo constitue une tâche fondamentale dotée d’une grande valeur pratique dans le domaine de la recherche multimodale. Inspirés par le succès remarquable des modèles pré-entraînés image-texte à grande échelle, tels que CLIP, de nombreuses méthodes ont été proposées afin de transférer la puissante capacité d’apprentissage de représentations de CLIP au domaine de la recherche textuelle vidéo. Toutefois, en raison des différences entre les modalités vidéo et image, l’adaptation efficace de CLIP au domaine vidéo reste encore largement sous-exploree. Dans ce travail, nous abordons ce problème sous deux angles. Premièrement, nous améliorons l’encodeur d’images transféré de CLIP afin d’obtenir une compréhension fine des vidéos de manière fluide et intégrée. Deuxièmement, nous réalisons une contrastation fine entre vidéos et textes, tant au niveau de l’amélioration du modèle que de la conception de la fonction de perte. Plus précisément, nous proposons un modèle contrastif à fine-grain, doté d’un attention isomérique parallèle et d’un routage dynamique, nommé PIDRo, dédié à la recherche textuelle vidéo. Le module d’attention isométrique parallèle sert d’encodeur vidéo, composé de deux branches parallèles modélisant l’information spatio-temporelle des vidéos à la fois au niveau des patches et au niveau des trames. Le module de routage dynamique est conçu pour renforcer l’encodeur de texte de CLIP, en générant des représentations informatives des mots en distribuant les informations fines aux tokens de mots pertinents au sein d’une phrase. Cette architecture permet d’obtenir des représentations riches au niveau des patches, des trames et des mots. Nous effectuons ensuite une interaction au niveau des tokens entre ces représentations. Grâce aux encodeurs améliorés et à la fonction de perte par token, nous parvenons à une alignement texte-vide plus précis et à une récupération plus fiable. PIDRo atteint des performances de pointe sur diverses benchmarks de recherche textuelle vidéo, notamment MSR-VTT, MSVD, LSMDC, DiDeMo et ActivityNet.

Benchmarks

BenchmarkMéthodologieMétriques
video-retrieval-on-msr-vtt-1kaPIDRo
text-to-video Mean Rank: 10.7
text-to-video Median Rank: 1.0
text-to-video R@1: 55.9
text-to-video R@10: 87.6
text-to-video R@5: 79.8
video-to-text Mean Rank: 7.5
video-to-text Median Rank: 1.0
video-to-text R@1: 54.5
video-to-text R@10: 87.3
video-to-text R@5: 78,3

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
PIDRo : Attention Isomérique Parallèle avec Routage Dynamique pour la Recherche Texte-Vidéo | Articles de recherche | HyperAI