Command Palette
Search for a command to run...
LoReTrack : Suivi efficace et précis par transformateur à faible résolution
LoReTrack : Suivi efficace et précis par transformateur à faible résolution
Shaohua Dong Yunhe Feng Qing Yang Yuewei Lin Heng Fan
Résumé
Les trackers haute performance basés sur les Transformers ont montré des résultats excellents, mais ils supportent souvent une charge de calcul importante. En observant qu'une entrée plus petite peut réduire immédiatement et commodément les calculs sans modifier le modèle, une solution simple consiste à utiliser une entrée en faible résolution pour un suivi efficace par Transformer. Bien que cette méthode soit plus rapide, elle nuit considérablement à la précision du suivi en raison de la perte d'informations liée à la faible résolution. Dans cet article, nous visons à atténuer cette perte d'information afin d'améliorer les performances du suivi par Transformer en faible résolution grâce à une double distillation de connaissances issue d'un tracker Transformer en haute résolution (mais non plus grand) figé.L'essentiel repose sur deux modules de distillation simples mais efficaces, comprenant la distillation de connaissances query-key-value (QKV-KD) et la distillation de connaissances discriminantes (Disc-KD), entre différentes résolutions. Le premier module, sous l'angle global, permet au tracker en faible résolution d'hériter des caractéristiques et des interactions du tracker en haute résolution. Le second module, sous l'angle ciblé, renforce la capacité de distinction entre l'objet et l'arrière-plan en imitant les régions discriminantes de son homologue en haute résolution.Grâce à cette double distillation de connaissances, notre Tracker Transformer en Faible Résolution (LoReTrack) bénéficie non seulement d'une grande efficacité due à la réduction des calculs, mais aussi d'une précision accrue grâce à la distillation des connaissances du tracker en haute résolution. Dans des expériences étendues, LoReTrack avec une résolution de 256x256 améliore constamment la ligne de base avec la même résolution et affiche des résultats compétitifs ou même supérieurs comparativement au tracker Transformer en haute résolution avec une résolution de 384x384, tout en fonctionnant 52% plus rapidement et économisant 56% d'opérations mathématiques (MACs). De plus, LoReTrack est adaptable aux différentes résolutions. Avec une résolution de 128x128, il fonctionne à 25 images par seconde sur un CPU et obtient des scores SUC de 64.9%/46.4% sur LaSOT/LaSOText, surpassant tous les autres trackers temps réel sur CPU.Le code sera rendu disponible.