HyperAIHyperAI
il y a 17 jours

Cap4Video : Que peuvent faire les légendes auxiliaires pour la recherche texte-vidéo ?

Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang
Cap4Video : Que peuvent faire les légendes auxiliaires pour la recherche texte-vidéo ?
Résumé

La plupart des méthodes existantes de recherche texte-vidéo se concentrent sur l’alignement cross-modale entre le contenu visuel des vidéos et les phrases de requête textuelles. Toutefois, dans des scénarios réels, les vidéos en ligne sont souvent accompagnées de textes pertinents tels que des titres, des balises ou même des sous-titres, qui peuvent être exploités pour améliorer le matching avec les requêtes textuelles. Cette observation nous a motivés à proposer une nouvelle approche pour la recherche texte-vidéo, dans laquelle nous générons directement des légendes associées aux vidéos à l’aide d’une captioning vidéo zéro-shot basée sur des modèles pré-entraînés à grande échelle du web (par exemple, CLIP et GPT-2). Étant donné les légendes générées, une question naturelle se pose : quelles sont les bénéfices apportés par ces légendes à la recherche texte-vidéo ? Pour y répondre, nous introduisons Cap4Video, un nouveau cadre qui exploite les légendes de trois manières : i) données d’entrée : les paires vidéo-légende peuvent enrichir les données d’entraînement ; ii) interaction intermédiaire des caractéristiques : nous réalisons une interaction cross-modale entre les caractéristiques vidéo et légende afin d’obtenir des représentations vidéo améliorées ; iii) score de sortie : la branche de correspondance requête-légende complète la branche originale de correspondance requête-vidéo pour la recherche texte-vidéo. Nous menons des études d’ablation approfondies afin de démontrer l’efficacité de notre approche. Sans aucune post-traitements, Cap4Video atteint des performances de pointe sur quatre benchmarks standards de recherche texte-vidéo : MSR-VTT (51,4 %), VATEX (66,6 %), MSVD (51,8 %) et DiDeMo (52,0 %). Le code est disponible à l’adresse suivante : https://github.com/whwu95/Cap4Video.

Cap4Video : Que peuvent faire les légendes auxiliaires pour la recherche texte-vidéo ? | Articles de recherche récents | HyperAI