HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la recherche vidéo-texte par alignement du corpus multi-flux et perte Softmax double

Xing Cheng Hezheng Lin Xiangyu Wu Fan Yang Dong Shen

Résumé

L’utilisation de modèles pré-entraînés à grande échelle comme CLIP pour effectuer la tâche de récupération vidéo-texte (VTR) est devenue une tendance récente, dépassant les méthodes VTR précédentes. Toutefois, en raison de l’hétérogénéité structurelle et sémantique entre les vidéos et les textes, les modèles basés sur CLIP sont sujets au surapprentissage pendant l’entraînement, ce qui entraîne une performance de récupération relativement médiocre. Dans cet article, nous proposons un réseau d’alignement de corpus multi-flux avec un Mélange d’Experts à porte unique (CAMoE) ainsi qu’une nouvelle fonction de perte en Dual Softmax (DSL), afin de traiter ces deux problèmes d’hétérogénéité. Le CAMoE exploite le mécanisme de Mélange d’Experts (MoE) pour extraire des représentations vidéo multi-perspective, incluant l’action, les entités, les scènes, etc., puis les aligne avec les parties correspondantes du texte. À cette étape, nous menons une exploration approfondie du module d’extraction de caractéristiques ainsi que du module d’alignement. La DSL est conçue pour éviter le problème de correspondance optimale unidirectionnelle observé dans les méthodes contrastives antérieures. En intégrant un prior intrinsèque pour chaque paire au sein d’un lot, la DSL agit comme un correcteur du matrice de similarité, permettant ainsi une correspondance optimale bidirectionnelle. Facile à implémenter (nécessitant seulement une ligne de code), la DSL améliore significativement les performances. Les résultats montrent que le CAMoE et la DSL proposés sont très efficaces : chacun d’eux atteint indépendamment l’état de l’art (SOTA) sur plusieurs benchmarks, notamment MSR-VTT, MSVD et LSMDC. En combinant les deux, la performance s’améliore de manière importante, dépassant les méthodes SOTA précédentes d’environ 4,6 % en R@1 sur MSR-VTT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Amélioration de la recherche vidéo-texte par alignement du corpus multi-flux et perte Softmax double | Articles | HyperAI