VVS : Récupération vidéo-à-vidéo avec suppression des cadres non pertinents

Dans le cadre de la recherche vidéo fondée sur le contenu (CBVR), l’efficacité est tout aussi cruciale que la précision lorsqu’il s’agit de traiter de grandes collections ; c’est pourquoi de nombreuses études se basant sur des caractéristiques au niveau vidéo ont été menées activement. Toutefois, en raison de la difficulté majeure d’incorporer un vidéo longue et non segmentée dans une seule représentation fonctionnelle, ces approches se sont révélées insuffisantes en termes de précision comparées aux méthodes fondées sur les caractéristiques au niveau des trames. Dans cet article, nous montrons que la suppression adéquate des trames non pertinentes peut offrir une meilleure compréhension des obstacles actuels rencontrés par les approches au niveau vidéo. En outre, nous proposons un réseau de suppression vidéo à vidéo (VVS) comme solution. Le VVS est un cadre end-to-end composé d’une étape d’élimination simple des distractions permettant d’identifier les trames à supprimer, suivie d’une étape de génération de poids de suppression destinée à déterminer l’intensité de la réduction des trames restantes. Cette architecture vise à décrire efficacement une vidéo non segmentée, caractérisée par un contenu variable et des informations sans intérêt. Son efficacité est démontrée par des expérimentations approfondies, et nous montrons que notre méthode atteint un niveau d’état de l’art dans les approches au niveau vidéo tout en offrant un temps d’inférence rapide, malgré une performance de recherche proche de celle des approches au niveau des trames. Le code est disponible à l’adresse suivante : https://github.com/sejong-rcv/VVS