il y a 3 mois

TGBFormer : Réseau Transformer-GraphFormer pour la détection d'objets dans les vidéos

Qiang Qi, Xiao Wang

Résumé

La détection d'objets dans les vidéos a connu des progrès significatifs ces dernières années grâce aux réseaux de neurones convolutifs (CNN) et aux vision transformers (ViT). En général, les CNN se distinguent par leur capacité à capturer des caractéristiques locales, mais peinent à modéliser des représentations globales. À l'inverse, les ViT sont particulièrement efficaces pour capter des caractéristiques globales à longue portée, tout en rencontrant des difficultés à représenter finement les détails locaux. Les méthodes actuelles de détection d'objets vidéo, basées exclusivement sur des CNN ou des ViT, s'appuient uniquement sur l'un ou l'autre de ces modèles pour l'agrégation des caractéristiques, ce qui limite leur capacité à exploiter simultanément les informations locales et globales, entraînant ainsi des performances de détection limitées. Dans cet article, nous proposons un réseau Transformer-GraphFormer Blender (TGBFormer) pour la détection d'objets dans les vidéos, intégrant trois améliorations techniques clés afin d'exploiter pleinement les avantages des transformers et des réseaux de convolution de graphes tout en compensant leurs faiblesses. Premièrement, nous développons un module transformer spatio-temporel permettant d'agréger des informations contextuelles globales, formant ainsi des représentations globales fondées sur des dépendances à longue portée. Deuxièmement, nous introduisons un module GraphFormer spatio-temporel qui exploite les relations spatiales et temporelles locales pour agréger les caractéristiques, produisant de nouvelles représentations locales complémentaires aux sorties du transformer. Troisièmement, nous concevons un module d'agrégation adaptative des caractéristiques globales et locales, permettant de combiner de manière dynamique les représentations globales issues du transformer et les représentations locales issues du GraphFormer. Des expériences étendues montrent que notre TGBFormer établit de nouveaux records d'état de l'art sur le jeu de données ImageNet VID. En particulier, notre modèle atteint un mAP de 86,5 % tout en fonctionnant à environ 41,0 FPS sur une seule GPU Tesla A100.