il y a 17 jours

PTSEFormer : TransFormer à Amélioration Progressive Temporelle et Spatiale pour la Détection d'Objets dans les Vidéos

Han Wang, Jun Tang, Xiaodong Liu, Shanyan Guan, Rong Xie, Li Song

Résumé

Ces dernières années, une tendance s’est affirmée dans l’application de cadres contextuels afin d’améliorer les performances de la détection d’objets, notamment dans le cadre de la détection d’objets dans les vidéos. Les méthodes existantes procèdent généralement à une agrégation des caractéristiques en un seul passage, dans le but d’en renforcer la richesse. Toutefois, ces approches manquent souvent d’informations spatiales provenant des cadres voisins et souffrent d’une agrégation insuffisante des caractéristiques. Pour remédier à ces limitations, nous proposons une approche progressive permettant d’intégrer à la fois des informations temporelles et spatiales pour une amélioration globale. L’information temporelle est introduite par un modèle d’agrégation de caractéristiques temporelles (TFAM), qui met en œuvre un mécanisme d’attention entre les cadres contextuels et le cadre cible (c’est-à-dire le cadre à détecter). Parallèlement, nous utilisons un modèle de prise de conscience de transition spatiale (STAM) afin de transmettre les informations sur les déplacements d’emplacement entre chaque cadre contextuel et le cadre cible. Basé sur un détecteur fondé sur les transformateurs, DETR, notre PTSEFormer adopte également une approche end-to-end, évitant ainsi des procédures de post-traitement lourdes, tout en atteignant un taux de mAP de 88,1 % sur le jeu de données ImageNet VID. Le code source est disponible à l’adresse suivante : https://github.com/Hon-Wong/PTSEFormer.