il y a 11 jours

Connaître votre cible : le Transformer consciente de la cible améliore le repérage spatio-temporel dans les vidéos

Xin Gu, Yaojie Shen, Chenxi Luo, Tiejian Luo, Yan Huang, Yuewei Lin, Heng Fan, Libo Zhang

Résumé

Transformer a suscité un intérêt croissant dans le domaine de la localisation spatio-temporelle de vidéos (STVG), en raison de sa chaîne de traitement end-to-end et de ses résultats prometteurs. Les approches actuelles basées sur Transformer pour le STVG exploitent souvent un ensemble de requêtes d’objets initialisées de manière simple par des zéros, puis apprennent progressivement les informations de position cible via des interactions itératives avec les caractéristiques multimodales, afin d’obtenir une localisation spatiale et temporelle. Malgré leur simplicité, ces requêtes d’objets initialement nulles, en raison de leur absence de signaux spécifiques au but, peinent à extraire des informations discriminantes à partir des interactions avec les caractéristiques multimodales dans des scénarios complexes (par exemple, en présence de distracteurs ou d’occlusions), entraînant une dégradation des performances. Pour remédier à ce problème, nous proposons un nouveau modèle, le Target-Aware Transformer pour le STVG (TA-STVG), qui vise à générer de manière adaptative des requêtes d’objets en explorant des indices spécifiques au but à partir d’une paire vidéo-texte donnée, afin d’améliorer les performances du STVG. Le cœur de notre approche repose sur deux modules simples mais efficaces, mis en cascade : l’échantillonnage temporel guidé par le texte (TTS) et l’activation spatiale sensible aux attributs (ASA). Le premier module se concentre sur la sélection de signaux temporels pertinents pour l’objet cible à partir de la vidéo, en exploitant l’information textuelle globale. Le second module vise à exploiter davantage les informations visuelles fines relatives aux attributs de l’objet à partir des signaux temporels précédemment identifiés comme ciblés, afin d’initialiser les requêtes d’objets. Contrairement aux méthodes existantes utilisant des requêtes initialisées à zéro, les requêtes d’objets dans notre TA-STVG sont directement générées à partir de la paire vidéo-texte donnée, portant naturellement des indices spécifiques au but, ce qui les rend adaptatives et leur permet d’interagir de manière plus efficace avec les caractéristiques multimodales pour apprendre des informations plus discriminantes, améliorant ainsi les performances du STVG. Nos expérimentations sur trois benchmarks démontrent que TA-STVG atteint un niveau d’état de l’art et surpasse significativement la méthode de référence, validant ainsi son efficacité.