HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP2TV : Aligner, Apparier et Distiller pour la Recherche Vidéo-Texte

Zijian Gao Jingyu Liu Weiqi Sun Sheng Chen Dedan Chang Lili Zhao

Résumé

Les cadres modernes de recherche vidéo-texte se composent essentiellement de trois composants : un encodeur vidéo, un encodeur texte et une tête de similarité. Grâce aux progrès réalisés dans l'apprentissage des représentations visuelles et textuelles, les encodeurs basés sur les transformateurs ainsi que les méthodes de fusion ont également été adoptés dans le domaine de la recherche vidéo-texte. Dans ce rapport, nous présentons CLIP2TV, dans le but d’explorer les éléments clés présents dans les méthodes basées sur les transformateurs. Pour atteindre cet objectif, nous revisitons tout d’abord certaines travaux récents sur l’apprentissage multimodal, puis introduisons plusieurs techniques dans le cadre de la recherche vidéo-texte, avant d’évaluer celles-ci à l’aide d’expériences étendues dans différentes configurations. Notamment, CLIP2TV atteint un score de 52,9@R1 sur le jeu de données MSR-VTT, surpassant ainsi le résultat SOTA précédent de 4,1 %.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
CLIP2TV : Aligner, Apparier et Distiller pour la Recherche Vidéo-Texte | Articles | HyperAI