HyperAIHyperAI

Command Palette

Search for a command to run...

Un guide du voyageur de CLIP pour la recherche vidéo longue

Max Bain Arsha Nagrani Gül Varol Andrew Zisserman

Résumé

Notre objectif dans cet article est l’adaptation des modèles image-text à la recherche dans des vidéos longues. Des travaux récents ont démontré des performances de pointe dans la recherche vidéo en s’appuyant sur CLIP, exploitant ainsi efficacement les représentations image-texte pour des tâches vidéo. Toutefois, les progrès dans l’apprentissage d’une agrégation temporelle surpassant le pooling moyen des représentations au niveau des images extraites par CLIP pour chaque trame ont été limités. Nous constatons que la méthode de base simple mais efficace, consistant à calculer une moyenne pondérée des embeddings des trames à l’aide d’un score de requête, représente une amélioration significative par rapport à toutes les approches antérieures de modélisation temporelle ainsi qu’au pooling moyen. En adoptant cette approche, nous proposons une base améliorée pour la comparaison par d’autres chercheurs, et démontrons que cette méthode simple atteint des performances de pointe sur une série de benchmarks de recherche vidéo longue.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp