HyperAIHyperAI
il y a 2 mois

Aggrégation de sémantique au niveau des séquences pour la détection d'objets vidéo

Haiping Wu; Yuntao Chen; Naiyan Wang; Zhaoxiang Zhang
Aggrégation de sémantique au niveau des séquences pour la détection d'objets vidéo
Résumé

La détection d'objets dans les vidéos (VID) est une direction de recherche en pleine expansion ces dernières années. Un problème central de la VID est la dégradation de l'apparence des images vidéo causée par des mouvements rapides. Ce problème est fondamentalement mal posé pour une seule image. Par conséquent, l'agrégation de caractéristiques à partir d'autres images devient un choix naturel. Les méthodes existantes s'appuient fortement sur le flux optique ou les réseaux neuronaux récurrents pour l'agrégation de caractéristiques. Cependant, ces méthodes mettent davantage l'accent sur les images temporellement proches. Dans ce travail, nous soutenons que l'agrégation de caractéristiques au niveau de la séquence complète conduira à des caractéristiques plus discriminantes et robustes pour la détection d'objets dans les vidéos. Pour atteindre cet objectif, nous avons conçu un nouveau module d'Agrégation Sémantique au Niveau de la Séquence (SELSA). Nous montrons également le lien étroit entre la méthode proposée et la méthode classique de clustering spectral, offrant ainsi une nouvelle perspective pour comprendre le problème de la VID. Nous testons notre méthode sur les jeux de données ImageNet VID et EPIC KITCHENS et obtenons des résultats nouveaux et en pointe. Notre méthode n'a pas besoin de méthodes complexes de post-traitement telles que Seq-NMS ou le recalage des tubelets, ce qui permet de maintenir le pipeline simple et propre.

Aggrégation de sémantique au niveau des séquences pour la détection d'objets vidéo | Articles de recherche récents | HyperAI