HyperAIHyperAI

Command Palette

Search for a command to run...

TGBFormer : Réseau Transformer-GraphFormer pour la détection d'objets dans les vidéos

Qiang Qi Xiao Wang

Résumé

La détection d'objets dans les vidéos a connu des progrès significatifs ces dernières années grâce aux réseaux de neurones convolutifs (CNN) et aux vision transformers (ViT). En général, les CNN se distinguent par leur capacité à capturer des caractéristiques locales, mais peinent à modéliser des représentations globales. À l'inverse, les ViT sont particulièrement efficaces pour capter des caractéristiques globales à longue portée, tout en rencontrant des difficultés à représenter finement les détails locaux. Les méthodes actuelles de détection d'objets vidéo, basées exclusivement sur des CNN ou des ViT, s'appuient uniquement sur l'un ou l'autre de ces modèles pour l'agrégation des caractéristiques, ce qui limite leur capacité à exploiter simultanément les informations locales et globales, entraînant ainsi des performances de détection limitées. Dans cet article, nous proposons un réseau Transformer-GraphFormer Blender (TGBFormer) pour la détection d'objets dans les vidéos, intégrant trois améliorations techniques clés afin d'exploiter pleinement les avantages des transformers et des réseaux de convolution de graphes tout en compensant leurs faiblesses. Premièrement, nous développons un module transformer spatio-temporel permettant d'agréger des informations contextuelles globales, formant ainsi des représentations globales fondées sur des dépendances à longue portée. Deuxièmement, nous introduisons un module GraphFormer spatio-temporel qui exploite les relations spatiales et temporelles locales pour agréger les caractéristiques, produisant de nouvelles représentations locales complémentaires aux sorties du transformer. Troisièmement, nous concevons un module d'agrégation adaptative des caractéristiques globales et locales, permettant de combiner de manière dynamique les représentations globales issues du transformer et les représentations locales issues du GraphFormer. Des expériences étendues montrent que notre TGBFormer établit de nouveaux records d'état de l'art sur le jeu de données ImageNet VID. En particulier, notre modèle atteint un mAP de 86,5 % tout en fonctionnant à environ 41,0 FPS sur une seule GPU Tesla A100.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp