HyperAIHyperAI
il y a 17 jours

Agrégation du contexte temporel pour la recherche vidéo par apprentissage contrastif

Jie Shao, Xin Wen, Bingchen Zhao, Xiangyang Xue
Agrégation du contexte temporel pour la recherche vidéo par apprentissage contrastif
Résumé

L'accent actuel de la recherche en récupération vidéo fondée sur le contenu repose sur une représentation vidéo de haut niveau, capable de décrire les dépendances sémantiques à longue portée entre des incidents, événements pertinents, etc. Toutefois, les méthodes existantes traitent généralement les cadres d'une vidéo comme des images individuelles ou des courts extraits, ce qui rend difficile la modélisation des dépendances sémantiques à longue portée. Dans cet article, nous proposons TCA (Temporal Context Aggregation for Video Retrieval), un cadre d'apprentissage de représentation vidéo qui intègre les informations temporelles à longue portée entre les caractéristiques au niveau des cadres grâce au mécanisme d'attention auto-attention. Pour entraîner ce modèle sur des jeux de données de récupération vidéo, nous introduisons une méthode d'apprentissage contrastif supervisé qui réalise automatiquement une sélection intelligente d'éléments négatifs difficiles (hard negative mining) et exploite un mécanisme de banque de mémoire afin d'accroître la capacité des échantillons négatifs. Des expériences étendues sont menées sur plusieurs tâches de récupération vidéo, telles que CC_WEB_VIDEO, FIVR-200K et EVVE. La méthode proposée obtient un avantage de performance significatif (~17 % de mAP supplémentaire sur FIVR-200K) par rapport aux méthodes de pointe utilisant des caractéristiques au niveau de la vidéo, tout en offrant des résultats compétitifs avec un temps d'inférence 22 fois plus rapide que les approches basées sur les cadres.