Apprentissage de représentations désentrelacées pour la récupération texte-vidéo

L'interaction entre modalités constitue un élément fondamental dans la recherche textuelle-vidéo (TVR), pourtant peu d'études se sont penchées sur l'impact des différents facteurs influençant le calcul de cette interaction sur les performances. Ce papier analyse en profondeur le paradigme d'interaction, en identifiant que son calcul peut être décomposé en deux composantes : d'une part, les contenus d'interaction à différentes granularités, d'autre part, la fonction de correspondance permettant de distinguer les paires ayant le même sens. Nous observons également que la représentation sous forme de vecteur unique et la fonction d'intensité implicite limitent fortement l'optimisation. À partir de ces constatations, nous proposons un cadre déconnecté (disentangled) afin de capturer une représentation séquentielle et hiérarchique. Premièrement, en tenant compte de la structure séquentielle naturelle des entrées textuelles et vidéo, nous introduisons un module d'interaction pondérée au niveau des jetons (WTI), permettant de décomposer le contenu et d'exploiter de manière adaptative les corrélations par paires. Cette interaction permet de construire une variété mieux déconnectée pour les entrées séquentielles. Deuxièmement, nous proposons une régularisation de décorrélation par canal (CDCR) afin de réduire la redondance entre les composantes des vecteurs comparés, favorisant ainsi l'apprentissage d'une représentation hiérarchique. Nous démontrons l'efficacité de cette représentation déconnectée sur plusieurs benchmarks : elle dépasse largement CLIP4Clip de +2,9 %, +3,1 %, +7,9 %, +2,3 %, +2,8 % et +6,5 % en R@1 sur MSR-VTT, MSVD, VATEX, LSMDC, ActivityNet et DiDeMo, respectivement.