il y a 16 jours

Un guide du voyageur de CLIP pour la recherche vidéo longue

Max Bain, Arsha Nagrani, Gül Varol, Andrew Zisserman

Résumé

Notre objectif dans cet article est l’adaptation des modèles image-text à la recherche dans des vidéos longues. Des travaux récents ont démontré des performances de pointe dans la recherche vidéo en s’appuyant sur CLIP, exploitant ainsi efficacement les représentations image-texte pour des tâches vidéo. Toutefois, les progrès dans l’apprentissage d’une agrégation temporelle surpassant le pooling moyen des représentations au niveau des images extraites par CLIP pour chaque trame ont été limités. Nous constatons que la méthode de base simple mais efficace, consistant à calculer une moyenne pondérée des embeddings des trames à l’aide d’un score de requête, représente une amélioration significative par rapport à toutes les approches antérieures de modélisation temporelle ainsi qu’au pooling moyen. En adoptant cette approche, nous proposons une base améliorée pour la comparaison par d’autres chercheurs, et démontrons que cette méthode simple atteint des performances de pointe sur une série de benchmarks de recherche vidéo longue.