HyperAIHyperAI
il y a 17 jours

VRAG : Graphes d'attention régionale pour la recherche vidéo basée sur le contenu

Kennard Ng, Ser-Nam Lim, Gim Hee Lee
VRAG : Graphes d'attention régionale pour la recherche vidéo basée sur le contenu
Résumé

La recherche vidéo fondée sur le contenu (CBVR) est utilisée sur les plateformes de partage de médias pour des applications telles que la recommandation de vidéos et le filtrage. Afin de gérer des bases de données s'étendant à des milliards de vidéos, les approches au niveau de la vidéo, qui utilisent des embeddings de taille fixe, sont privilégiées en raison de leur efficacité. Dans cet article, nous introduisons les Réseaux d’Attention sur les Régions Vidéo (VRAG), une méthode qui améliore l’état de l’art des approches au niveau de la vidéo. Nous représentons les vidéos avec une granularité plus fine grâce à des caractéristiques au niveau des régions, et codons les dynamiques spatio-temporelles de la vidéo à travers les relations entre ces régions. Notre modèle VRAG capture les relations entre régions en se basant sur leur contenu sémantique, via une attention auto-associative combinée à une agrégation invariante aux permutations par convolution de graphe. En outre, nous démontrons qu’en segmentant les vidéos en plans (shots) et en utilisant des embeddings de plans pour la recherche vidéo, l’écart de performance entre les méthodes au niveau de la vidéo et celles au niveau des images (frame-level) peut être réduit. Nous évaluons notre VRAG sur plusieurs tâches de recherche vidéo et atteignons un nouvel état de l’art pour la recherche au niveau de la vidéo. De plus, notre version au niveau des plans (shot-level) de VRAG obtient une précision de recherche supérieure à celle des autres méthodes au niveau de la vidéo, tout en se rapprochant des performances des méthodes au niveau des images, avec des vitesses d’évaluation plus rapides. Enfin, notre code sera rendu publiquement disponible.