HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur vidéo à échantillonnage éparse avec mémoire guidée par l'attention pour la détection d'objets vidéo

Akihiro Sugimoto Masato Fujitake

Résumé

La détection d’objets dans une vidéo, appelée détection d’objets vidéo (VOD), est un défi car les variations d’apparence des objets au fil du temps peuvent entraîner des erreurs de détection. Les recherches récentes se sont concentrées sur l’agrégation des caractéristiques provenant des cadres adjacents afin de compenser les dégradations d’apparence d’un cadre donné. Par ailleurs, l’utilisation de cadres éloignés a également été proposée pour traiter les dégradations d’apparence sur plusieurs cadres. Étant donné que la position d’un objet peut évoluer de manière significative dans un cadre éloigné, ces approches ne s’appuient que sur les caractéristiques des régions candidates à la présence d’objets, qui ne dépendent pas de leur position. Toutefois, de telles méthodes dépendent fortement de la performance de détection des régions candidates et s’avèrent peu pratiques face à des dégradations d’apparence importantes. Dans cet article, nous améliorons les caractéristiques de manière élémentaire avant la détection des régions candidates, en proposant le modèle Video Sparse Transformer with Attention-guided Memory (VSTAM). En outre, nous introduisons une agrégation des caractéristiques élémentaires de manière creuse afin de réduire le temps de traitement et la consommation mémoire. Par ailleurs, nous proposons une stratégie de mise à jour de mémoire externe fondée sur l’utilisation de l’agrégation, permettant ainsi de conserver efficacement des informations à long terme. Notre méthode obtient une amélioration de 8,3 % et 11,1 % en précision par rapport à la méthode de base sur les jeux de données ImageNet VID et UA-DETRAC, démontrant ainsi des performances supérieures aux résultats actuels de l’état de l’art sur des jeux de données VOD largement utilisés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp