HyperAI

Résumé

La recherche vidéo est une tâche complexe consistant à associer une requête textuelle à une vidéo, ou inversement. La plupart des approches existantes pour résoudre ce problème reposent sur des annotations fournies par les utilisateurs. Bien que simple, cette méthode n’est pas toujours réalisable en pratique. Dans ce travail, nous explorons l’application du modèle langage-image, CLIP, afin d’obtenir des représentations vidéo sans nécessiter d’annotations. Ce modèle a été explicitement entraîné pour apprendre un espace commun permettant de comparer images et textes. En utilisant diverses techniques décrites dans ce document, nous avons étendu son application aux vidéos, atteignant ainsi des résultats de pointe sur les benchmarks MSR-VTT et MSVD.

Résumé

Jesús Andrés Portillo-Quintero José Carlos Ortiz-Bayliss Hugo Terashima-Marín

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Jesús Andrés Portillo-Quintero José Carlos Ortiz-Bayliss Hugo Terashima-Marín

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Jesús Andrés Portillo-Quintero José Carlos Ortiz-Bayliss Hugo Terashima-Marín

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Un cadre simple pour la recherche vidéo utilisant CLIP

Jesús Andrés Portillo-Quintero José Carlos Ortiz-Bayliss Hugo Terashima-Marín

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Un cadre simple pour la recherche vidéo utilisant CLIP

Jesús Andrés Portillo-Quintero José Carlos Ortiz-Bayliss Hugo Terashima-Marín

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Un cadre simple pour la recherche vidéo utilisant CLIP

Jesús Andrés Portillo-Quintero José Carlos Ortiz-Bayliss Hugo Terashima-Marín

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters