HyperAIHyperAI
il y a 2 mois

ViSiL : Apprentissage de la similarité vidéo spatio-temporelle fine-grainée

Giorgos Kordopatis-Zilos; Symeon Papadopoulos; Ioannis Patras; Ioannis Kompatsiaris
ViSiL : Apprentissage de la similarité vidéo spatio-temporelle fine-grainée
Résumé

Dans cet article, nous présentons ViSiL, une architecture d'apprentissage de similarité vidéo qui prend en compte les relations Spatio-Temporelles fines entre des paires de vidéos. Ces relations sont généralement perdues dans les approches précédentes de recherche de vidéos, qui intègrent l'ensemble du cadre ou même l'ensemble de la vidéo dans un descripteur vectoriel avant l'estimation de la similarité. En revanche, notre approche basée sur les Réseaux Neuronaux Convolutifs (CNN) est formée pour calculer la similarité vidéo-vidéo à partir de matrices de similarité raffinées cadre-cadre, afin de considérer à la fois les relations intra- et inter-cadres. Dans la méthode proposée, la similarité paire-cadre est estimée en appliquant le Produit Tensoriel (TD) suivi par la Similarité Chamfer (CS) sur les caractéristiques CNN régionales des cadres - cela évite l'agrégation des caractéristiques avant le calcul de la similarité entre les cadres. Par la suite, la matrice de similarité entre tous les cadres vidéo est alimentée à un CNN à quatre couches, puis résumée à l'aide de la Similarité Chamfer (CS) en un score de similarité vidéo-vidéo - cela évite l'agrégation des caractéristiques avant le calcul de la similarité entre les vidéos et capture les modèles de similarité temporelle entre les séquences de cadres correspondants. Nous entraînons le réseau proposé en utilisant un schéma de perte par triplet et nous l'évaluons sur cinq jeux de données benchmarks publics pour quatre problèmes différents de recherche vidéo, où nous démontrons d'importantes améliorations par rapport aux méthodes actuelles. L'implémentation de ViSiL est disponible au public.