Amélioration de la recherche vidéo-texte par alignement du corpus multi-flux et perte Softmax double

L’utilisation de modèles pré-entraînés à grande échelle comme CLIP pour effectuer la tâche de récupération vidéo-texte (VTR) est devenue une tendance récente, dépassant les méthodes VTR précédentes. Toutefois, en raison de l’hétérogénéité structurelle et sémantique entre les vidéos et les textes, les modèles basés sur CLIP sont sujets au surapprentissage pendant l’entraînement, ce qui entraîne une performance de récupération relativement médiocre. Dans cet article, nous proposons un réseau d’alignement de corpus multi-flux avec un Mélange d’Experts à porte unique (CAMoE) ainsi qu’une nouvelle fonction de perte en Dual Softmax (DSL), afin de traiter ces deux problèmes d’hétérogénéité. Le CAMoE exploite le mécanisme de Mélange d’Experts (MoE) pour extraire des représentations vidéo multi-perspective, incluant l’action, les entités, les scènes, etc., puis les aligne avec les parties correspondantes du texte. À cette étape, nous menons une exploration approfondie du module d’extraction de caractéristiques ainsi que du module d’alignement. La DSL est conçue pour éviter le problème de correspondance optimale unidirectionnelle observé dans les méthodes contrastives antérieures. En intégrant un prior intrinsèque pour chaque paire au sein d’un lot, la DSL agit comme un correcteur du matrice de similarité, permettant ainsi une correspondance optimale bidirectionnelle. Facile à implémenter (nécessitant seulement une ligne de code), la DSL améliore significativement les performances. Les résultats montrent que le CAMoE et la DSL proposés sont très efficaces : chacun d’eux atteint indépendamment l’état de l’art (SOTA) sur plusieurs benchmarks, notamment MSR-VTT, MSVD et LSMDC. En combinant les deux, la performance s’améliore de manière importante, dépassant les méthodes SOTA précédentes d’environ 4,6 % en R@1 sur MSR-VTT.