HyperAIHyperAI
il y a 9 jours

Un cadre simple pour la recherche vidéo utilisant CLIP

Jesús Andrés Portillo-Quintero, José Carlos Ortiz-Bayliss, Hugo Terashima-Marín
Un cadre simple pour la recherche vidéo utilisant CLIP
Résumé

La recherche vidéo est une tâche complexe consistant à associer une requête textuelle à une vidéo, ou inversement. La plupart des approches existantes pour résoudre ce problème reposent sur des annotations fournies par les utilisateurs. Bien que simple, cette méthode n’est pas toujours réalisable en pratique. Dans ce travail, nous explorons l’application du modèle langage-image, CLIP, afin d’obtenir des représentations vidéo sans nécessiter d’annotations. Ce modèle a été explicitement entraîné pour apprendre un espace commun permettant de comparer images et textes. En utilisant diverses techniques décrites dans ce document, nous avons étendu son application aux vidéos, atteignant ainsi des résultats de pointe sur les benchmarks MSR-VTT et MSVD.