PIDRo : Attention Isomérique Parallèle avec Routage Dynamique pour la Recherche Texte-Vidéo

La recherche textuelle vidéo constitue une tâche fondamentale dotée d’une grande valeur pratique dans le domaine de la recherche multimodale. Inspirés par le succès remarquable des modèles pré-entraînés image-texte à grande échelle, tels que CLIP, de nombreuses méthodes ont été proposées afin de transférer la puissante capacité d’apprentissage de représentations de CLIP au domaine de la recherche textuelle vidéo. Toutefois, en raison des différences entre les modalités vidéo et image, l’adaptation efficace de CLIP au domaine vidéo reste encore largement sous-exploree. Dans ce travail, nous abordons ce problème sous deux angles. Premièrement, nous améliorons l’encodeur d’images transféré de CLIP afin d’obtenir une compréhension fine des vidéos de manière fluide et intégrée. Deuxièmement, nous réalisons une contrastation fine entre vidéos et textes, tant au niveau de l’amélioration du modèle que de la conception de la fonction de perte. Plus précisément, nous proposons un modèle contrastif à fine-grain, doté d’un attention isomérique parallèle et d’un routage dynamique, nommé PIDRo, dédié à la recherche textuelle vidéo. Le module d’attention isométrique parallèle sert d’encodeur vidéo, composé de deux branches parallèles modélisant l’information spatio-temporelle des vidéos à la fois au niveau des patches et au niveau des trames. Le module de routage dynamique est conçu pour renforcer l’encodeur de texte de CLIP, en générant des représentations informatives des mots en distribuant les informations fines aux tokens de mots pertinents au sein d’une phrase. Cette architecture permet d’obtenir des représentations riches au niveau des patches, des trames et des mots. Nous effectuons ensuite une interaction au niveau des tokens entre ces représentations. Grâce aux encodeurs améliorés et à la fonction de perte par token, nous parvenons à une alignement texte-vide plus précis et à une récupération plus fiable. PIDRo atteint des performances de pointe sur diverses benchmarks de recherche textuelle vidéo, notamment MSR-VTT, MSVD, LSMDC, DiDeMo et ActivityNet.