HyperAIHyperAI
il y a 11 jours

MixFormer : Suivi entièrement end-to-end avec une attention mixte itérative

Yutao Cui, Cheng Jiang, Gangshan Wu, Limin Wang
MixFormer : Suivi entièrement end-to-end avec une attention mixte itérative
Résumé

Le suivi d'objets visuels repose souvent sur une chaîne multi-étapes comprenant l'extraction de caractéristiques, l'intégration des informations sur la cible et l'estimation de la boîte englobante. Afin de simplifier cette chaîne et d’unifier les étapes d’extraction de caractéristiques et d’intégration des informations cibles, nous proposons dans cet article un cadre compact de suivi, nommé MixFormer, fondé sur les architectures Transformer. Notre conception centrale repose sur l'adaptabilité des opérations d'attention, et nous introduisons un module d'attention mixte (Mixed Attention Module, MAM) permettant d'effectuer simultanément l'extraction de caractéristiques et l'intégration des informations cibles. Ce schéma de modélisation synchrone permet d’extraire des caractéristiques discriminantes spécifiques à la cible tout en assurant une communication approfondie entre la région cible et la zone de recherche. À partir du MAM, nous construisons nos trackers MixFormer en empilant simplement plusieurs modules MAM et en ajoutant une tête de localisation en haut. Plus précisément, nous instancions deux types de trackers MixFormer : un tracker hiérarchique, MixCvT, et un tracker non hiérarchique, MixViT. Pour ces deux architectures, nous étudions une série de méthodes de pré-entraînement et mettons en évidence les comportements distincts observés entre le pré-entraînement supervisé et le pré-entraînement auto-supervisé dans nos trackers MixFormer. Nous étendons également le pré-entraînement masqué à nos trackers MixFormer et proposons une technique compétitive de pré-entraînement appelée TrackMAE. Enfin, afin de gérer efficacement plusieurs modèles cibles lors du suivi en ligne, nous concevons une stratégie d'attention asymétrique au sein du MAM afin de réduire la charge computationnelle, et proposons un module efficace de prédiction de scores pour sélectionner les meilleurs modèles. Nos trackers MixFormer atteignent un nouveau record de performance sur sept benchmarks de suivi, notamment LaSOT, TrackingNet, VOT2020, GOT-10k, OTB100 et UAV123. En particulier, notre MixViT-L obtient un score AUC de 73,3 % sur LaSOT, 86,1 % sur TrackingNet, un score EAO de 0,584 sur VOT2020 et un score AO de 75,7 % sur GOT-10k. Le code source et les modèles entraînés sont disponibles publiquement à l’adresse suivante : https://github.com/MCG-NJU/MixFormer.

MixFormer : Suivi entièrement end-to-end avec une attention mixte itérative | Articles de recherche récents | HyperAI