HyperAIHyperAI

Command Palette

Search for a command to run...

LoReTrack : Suivi efficace et précis par transformateur à faible résolution

Shaohua Dong Yunhe Feng Qing Yang Yuewei Lin Heng Fan

Résumé

Les trackers haute performance basés sur les Transformers ont montré des résultats excellents, mais ils supportent souvent une charge de calcul importante. En observant qu'une entrée plus petite peut réduire immédiatement et commodément les calculs sans modifier le modèle, une solution simple consiste à utiliser une entrée en faible résolution pour un suivi efficace par Transformer. Bien que cette méthode soit plus rapide, elle nuit considérablement à la précision du suivi en raison de la perte d'informations liée à la faible résolution. Dans cet article, nous visons à atténuer cette perte d'information afin d'améliorer les performances du suivi par Transformer en faible résolution grâce à une double distillation de connaissances issue d'un tracker Transformer en haute résolution (mais non plus grand) figé.L'essentiel repose sur deux modules de distillation simples mais efficaces, comprenant la distillation de connaissances query-key-value (QKV-KD) et la distillation de connaissances discriminantes (Disc-KD), entre différentes résolutions. Le premier module, sous l'angle global, permet au tracker en faible résolution d'hériter des caractéristiques et des interactions du tracker en haute résolution. Le second module, sous l'angle ciblé, renforce la capacité de distinction entre l'objet et l'arrière-plan en imitant les régions discriminantes de son homologue en haute résolution.Grâce à cette double distillation de connaissances, notre Tracker Transformer en Faible Résolution (LoReTrack) bénéficie non seulement d'une grande efficacité due à la réduction des calculs, mais aussi d'une précision accrue grâce à la distillation des connaissances du tracker en haute résolution. Dans des expériences étendues, LoReTrack avec une résolution de 256x256 améliore constamment la ligne de base avec la même résolution et affiche des résultats compétitifs ou même supérieurs comparativement au tracker Transformer en haute résolution avec une résolution de 384x384, tout en fonctionnant 52% plus rapidement et économisant 56% d'opérations mathématiques (MACs). De plus, LoReTrack est adaptable aux différentes résolutions. Avec une résolution de 128x128, il fonctionne à 25 images par seconde sur un CPU et obtient des scores SUC de 64.9%/46.4% sur LaSOT/LaSOText, surpassant tous les autres trackers temps réel sur CPU.Le code sera rendu disponible.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp