HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage d'un Transformers Spatio-Temporel pour le Suivi Visuel

Bin Yan Houwen Peng Jianlong Fu Dong Wang Huchuan Lu

Résumé

Dans cet article, nous présentons une nouvelle architecture de suivi dont le composant clé est un transformateur encodeur-décodeur. L'encodeur modélise les dépendances spatio-temporelles globales entre les objets cibles et les zones de recherche, tandis que le décodeur apprend une empreinte de requête pour prédire les positions spatiales des objets cibles. Notre méthode traite le suivi d'objets comme un problème de prédiction directe de boîtes englobantes, sans utiliser aucune proposition ou ancres prédéfinies. Avec l'encodeur-décodeur transformateur, la prédiction des objets utilise simplement un réseau neuronal entièrement convolutif (fully-convolutional network), qui estime directement les coins des objets. La méthode complète est de bout en bout, n'a pas besoin d'étapes de post-traitement telles que la fenêtre cosinus et le lissage des boîtes englobantes, ce qui simplifie considérablement les pipelines de suivi existants. Le traceur proposé atteint des performances de pointe sur cinq benchmarks à court et long terme difficiles, tout en fonctionnant à une vitesse en temps réel, étant 6 fois plus rapide que Siam R-CNN. Le code source et les modèles sont mis à disposition sous licence open-source sur https://github.com/researchmm/Stark.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp