HyperAIHyperAI
il y a 2 mois

STVGFormer : Ancrage spatio-temporel de vidéos avec une compréhension croisée statique-dynamique

Zihang Lin; Chaolei Tan; Jian-Fang Hu; Zhi Jin; Tiancai Ye; Wei-Shi Zheng
STVGFormer : Ancrage spatio-temporel de vidéos avec une compréhension croisée statique-dynamique
Résumé

Dans ce rapport technique, nous présentons notre solution pour la tâche de localisation spatio-temporelle centrée sur l'humain dans les vidéos. Nous proposons un cadre concis et efficace nommé STVGFormer, qui modélise les dépendances visuelles-linguistiques spatio-temporelles à l'aide d'une branche statique et d'une branche dynamique. La branche statique effectue une compréhension intermodale au sein d'un seul cadre et apprend à localiser l'objet cible spatialement en fonction des indices visuels intra-cadre, tels que les apparences des objets. La branche dynamique effectue une compréhension intermodale sur plusieurs cadres. Elle apprend à prédire le temps de début et de fin du moment cible en fonction des indices visuels dynamiques, tels que les mouvements. Les deux branches statique et dynamique sont conçues comme des transformateurs intermodaux. Nous avons également conçu un bloc d'interaction statique-dynamique novateur permettant aux branches statique et dynamique de transférer des informations utiles et complémentaires entre elles, ce qui s'est révélé efficace pour améliorer la prédiction dans les cas difficiles. Notre méthode proposée a atteint 39,6 % de vIoU (video Intersection over Union) et a remporté la première place dans le parcours HC-STVG (Human-Centric Spatio-Temporal Video Grounding) du 4e Défi Person in Context.

STVGFormer : Ancrage spatio-temporel de vidéos avec une compréhension croisée statique-dynamique | Articles de recherche récents | HyperAI