HyperAIHyperAI
il y a 17 jours

Transformateur vidéo à échantillonnage éparse avec mémoire guidée par l'attention pour la détection d'objets vidéo

{Akihiro Sugimoto, Masato Fujitake}
Résumé

La détection d’objets dans une vidéo, appelée détection d’objets vidéo (VOD), est un défi car les variations d’apparence des objets au fil du temps peuvent entraîner des erreurs de détection. Les recherches récentes se sont concentrées sur l’agrégation des caractéristiques provenant des cadres adjacents afin de compenser les dégradations d’apparence d’un cadre donné. Par ailleurs, l’utilisation de cadres éloignés a également été proposée pour traiter les dégradations d’apparence sur plusieurs cadres. Étant donné que la position d’un objet peut évoluer de manière significative dans un cadre éloigné, ces approches ne s’appuient que sur les caractéristiques des régions candidates à la présence d’objets, qui ne dépendent pas de leur position. Toutefois, de telles méthodes dépendent fortement de la performance de détection des régions candidates et s’avèrent peu pratiques face à des dégradations d’apparence importantes. Dans cet article, nous améliorons les caractéristiques de manière élémentaire avant la détection des régions candidates, en proposant le modèle Video Sparse Transformer with Attention-guided Memory (VSTAM). En outre, nous introduisons une agrégation des caractéristiques élémentaires de manière creuse afin de réduire le temps de traitement et la consommation mémoire. Par ailleurs, nous proposons une stratégie de mise à jour de mémoire externe fondée sur l’utilisation de l’agrégation, permettant ainsi de conserver efficacement des informations à long terme. Notre méthode obtient une amélioration de 8,3 % et 11,1 % en précision par rapport à la méthode de base sur les jeux de données ImageNet VID et UA-DETRAC, démontrant ainsi des performances supérieures aux résultats actuels de l’état de l’art sur des jeux de données VOD largement utilisés.