HyperAIHyperAI

Command Palette

Search for a command to run...

Cap4Video : Que peuvent faire les légendes auxiliaires pour la recherche texte-vidéo ?

Wenhao Wu Haipeng Luo Bo Fang Jingdong Wang Wanli Ouyang

Résumé

La plupart des méthodes existantes de recherche texte-vidéo se concentrent sur l’alignement cross-modale entre le contenu visuel des vidéos et les phrases de requête textuelles. Toutefois, dans des scénarios réels, les vidéos en ligne sont souvent accompagnées de textes pertinents tels que des titres, des balises ou même des sous-titres, qui peuvent être exploités pour améliorer le matching avec les requêtes textuelles. Cette observation nous a motivés à proposer une nouvelle approche pour la recherche texte-vidéo, dans laquelle nous générons directement des légendes associées aux vidéos à l’aide d’une captioning vidéo zéro-shot basée sur des modèles pré-entraînés à grande échelle du web (par exemple, CLIP et GPT-2). Étant donné les légendes générées, une question naturelle se pose : quelles sont les bénéfices apportés par ces légendes à la recherche texte-vidéo ? Pour y répondre, nous introduisons Cap4Video, un nouveau cadre qui exploite les légendes de trois manières : i) données d’entrée : les paires vidéo-légende peuvent enrichir les données d’entraînement ; ii) interaction intermédiaire des caractéristiques : nous réalisons une interaction cross-modale entre les caractéristiques vidéo et légende afin d’obtenir des représentations vidéo améliorées ; iii) score de sortie : la branche de correspondance requête-légende complète la branche originale de correspondance requête-vidéo pour la recherche texte-vidéo. Nous menons des études d’ablation approfondies afin de démontrer l’efficacité de notre approche. Sans aucune post-traitements, Cap4Video atteint des performances de pointe sur quatre benchmarks standards de recherche texte-vidéo : MSR-VTT (51,4 %), VATEX (66,6 %), MSVD (51,8 %) et DiDeMo (52,0 %). Le code est disponible à l’adresse suivante : https://github.com/whwu95/Cap4Video.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp