HyperAIHyperAI
il y a 2 mois

Apprentissage d'un Transformers Spatio-Temporel pour le Suivi Visuel

Bin Yan; Houwen Peng; Jianlong Fu; Dong Wang; Huchuan Lu
Apprentissage d'un Transformers Spatio-Temporel pour le Suivi Visuel
Résumé

Dans cet article, nous présentons une nouvelle architecture de suivi dont le composant clé est un transformateur encodeur-décodeur. L'encodeur modélise les dépendances spatio-temporelles globales entre les objets cibles et les zones de recherche, tandis que le décodeur apprend une empreinte de requête pour prédire les positions spatiales des objets cibles. Notre méthode traite le suivi d'objets comme un problème de prédiction directe de boîtes englobantes, sans utiliser aucune proposition ou ancres prédéfinies. Avec l'encodeur-décodeur transformateur, la prédiction des objets utilise simplement un réseau neuronal entièrement convolutif (fully-convolutional network), qui estime directement les coins des objets. La méthode complète est de bout en bout, n'a pas besoin d'étapes de post-traitement telles que la fenêtre cosinus et le lissage des boîtes englobantes, ce qui simplifie considérablement les pipelines de suivi existants. Le traceur proposé atteint des performances de pointe sur cinq benchmarks à court et long terme difficiles, tout en fonctionnant à une vitesse en temps réel, étant 6 fois plus rapide que Siam R-CNN. Le code source et les modèles sont mis à disposition sous licence open-source sur https://github.com/researchmm/Stark.

Apprentissage d'un Transformers Spatio-Temporel pour le Suivi Visuel | Articles de recherche récents | HyperAI