HyperAIHyperAI

Command Palette

Search for a command to run...

Un cadre simple pour la recherche vidéo utilisant CLIP

Jesús Andrés Portillo-Quintero José Carlos Ortiz-Bayliss Hugo Terashima-Marín

Résumé

La recherche vidéo est une tâche complexe consistant à associer une requête textuelle à une vidéo, ou inversement. La plupart des approches existantes pour résoudre ce problème reposent sur des annotations fournies par les utilisateurs. Bien que simple, cette méthode n’est pas toujours réalisable en pratique. Dans ce travail, nous explorons l’application du modèle langage-image, CLIP, afin d’obtenir des représentations vidéo sans nécessiter d’annotations. Ce modèle a été explicitement entraîné pour apprendre un espace commun permettant de comparer images et textes. En utilisant diverses techniques décrites dans ce document, nous avons étendu son application aux vidéos, atteignant ainsi des résultats de pointe sur les benchmarks MSR-VTT et MSVD.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp