HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Transformateur vidéo à échantillonnage éparse avec mémoire guidée par l'attention pour la détection d'objets vidéo

{Akihiro Sugimoto Masato Fujitake}

Résumé

La détection d’objets dans une vidéo, appelée détection d’objets vidéo (VOD), est un défi car les variations d’apparence des objets au fil du temps peuvent entraîner des erreurs de détection. Les recherches récentes se sont concentrées sur l’agrégation des caractéristiques provenant des cadres adjacents afin de compenser les dégradations d’apparence d’un cadre donné. Par ailleurs, l’utilisation de cadres éloignés a également été proposée pour traiter les dégradations d’apparence sur plusieurs cadres. Étant donné que la position d’un objet peut évoluer de manière significative dans un cadre éloigné, ces approches ne s’appuient que sur les caractéristiques des régions candidates à la présence d’objets, qui ne dépendent pas de leur position. Toutefois, de telles méthodes dépendent fortement de la performance de détection des régions candidates et s’avèrent peu pratiques face à des dégradations d’apparence importantes. Dans cet article, nous améliorons les caractéristiques de manière élémentaire avant la détection des régions candidates, en proposant le modèle Video Sparse Transformer with Attention-guided Memory (VSTAM). En outre, nous introduisons une agrégation des caractéristiques élémentaires de manière creuse afin de réduire le temps de traitement et la consommation mémoire. Par ailleurs, nous proposons une stratégie de mise à jour de mémoire externe fondée sur l’utilisation de l’agrégation, permettant ainsi de conserver efficacement des informations à long terme. Notre méthode obtient une amélioration de 8,3 % et 11,1 % en précision par rapport à la méthode de base sur les jeux de données ImageNet VID et UA-DETRAC, démontrant ainsi des performances supérieures aux résultats actuels de l’état de l’art sur des jeux de données VOD largement utilisés.

Benchmarks

BenchmarkMéthodologieMétriques
object-detection-on-ua-detracVSTAM
mAP: 90.39
video-instance-segmentation-on-youtube-vis-1VSTAM
mask AP: 39.0
video-object-detection-on-imagenet-vidVSTAM
MAP : 91.1

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transformateur vidéo à échantillonnage éparse avec mémoire guidée par l'attention pour la détection d'objets vidéo | Articles de recherche | HyperAI