HyperAIHyperAI
il y a 2 mois

MixFormer : Suivi de bout en bout avec attention mixte itérative

Yutao Cui; Cheng Jiang; Limin Wang; Gangshan Wu
MixFormer : Suivi de bout en bout avec attention mixte itérative
Résumé

Le suivi utilise souvent un pipeline en plusieurs étapes comprenant l'extraction de caractéristiques, l'intégration d'informations sur la cible et l'estimation de la boîte englobante. Pour simplifier ce pipeline et unifier le processus d'extraction de caractéristiques et d'intégration d'informations sur la cible, nous présentons un cadre de suivi compact basé sur les transformateurs, appelé MixFormer. Notre conception centrale est d'utiliser la flexibilité des opérations d'attention et de proposer un module d'attention mixte (MAM) pour l'extraction simultanée de caractéristiques et l'intégration d'informations sur la cible. Ce schéma de modélisation synchrone permet d'extraire des caractéristiques discriminantes spécifiques à la cible et de réaliser une communication intensive entre la cible et la zone de recherche. Sur la base du MAM, nous construisons notre cadre de suivi MixFormer simplement en empilant plusieurs MAM avec un plongement progressif de patchs et en plaçant une tête de localisation au sommet. De plus, pour gérer plusieurs modèles de cibles lors du suivi en ligne, nous avons conçu un schéma d'attention asymétrique dans le MAM afin de réduire le coût computationnel, et proposé un module efficace de prédiction des scores pour sélectionner des modèles de haute qualité. Notre MixFormer établit une nouvelle référence en matière de performance sur cinq benchmarks de suivi, dont LaSOT, TrackingNet, VOT2020, GOT-10k et UAV123. En particulier, notre MixFormer-L atteint un score NP de 79,9 % sur LaSOT, 88,9 % sur TrackingNet et un EAO (Expected Average Overlap) de 0,555 sur VOT2020. Nous avons également mené des études approfondies par élimination pour démontrer l'efficacité de l'extraction simultanée des caractéristiques et de l'intégration des informations. Le code source et les modèles entraînés sont disponibles publiquement à l'adresse suivante : https://github.com/MCG-NJU/MixFormer.

MixFormer : Suivi de bout en bout avec attention mixte itérative | Articles de recherche récents | HyperAI