HyperAIHyperAI

Command Palette

Search for a command to run...

LoReTrack: Effizient und genaues Low-Resolution-Transformer-Tracking

Shaohua Dong Yunhe Feng Qing Yang Yuewei Lin Heng Fan

Zusammenfassung

Hochleistungs-Transformer-Verfolger haben ausgezeichnete Ergebnisse gezeigt, tragen jedoch oft eine hohe rechnerische Last. Da eine kleinere Eingabe sofort und bequem die Berechnungen reduzieren kann, ohne das Modell zu ändern, liegt eine einfache Lösung darin, eine Eingabe mit niedriger Auflösung für effizientes Transformer-Tracking zu verwenden. Obwohl diese Methode schneller ist, führt sie aufgrund des Informationsverlusts bei der Verarbeitung von Eingaben mit niedriger Auflösung zu erheblichen Genauigkeitsverlusten. In dieser Arbeit streben wir an, diesen Informationsverlust durch doppelte Wissensdistillierung aus einem gefrorenen Transformer-Verfolger mit hoher Auflösung (aber nicht größerer) zu verringern, um die Leistung des Verfolgers mit niedriger Auflösung zu verbessern. Das Kernstück sind zwei einfache, aber effektive Distillierungsmoduln: Query-Key-Value-Wissensdistillierung (QKV-KD) und Diskriminationswissensdistillierung (Disc-KD), die über verschiedene Auflösungen hinweg angewendet werden. Das erste Modul ermöglicht es dem Verfolger mit niedriger Auflösung aus der globalen Perspektive, die Merkmale und Interaktionen vom Verfolger mit hoher Auflösung zu übernehmen. Das zweite Modul verstärkt aus der Zielbewusst-Perspektive die Fähigkeit zur Unterscheidung zwischen Ziel und Hintergrund durch Nachahmung diskriminativer Regionen seines hochaufgelösten Gegenparts. Durch die doppelte Wissensdistillierung profitiert unser Low-Resolution Transformer Tracker (LoReTrack) nicht nur von einer hohen Effizienz dank reduzierter Berechnungen, sondern auch von erhöhter Genauigkeit durch das Distillieren von Wissen aus dem hochaufgelösten Verfolger. In umfangreichen Experimenten zeigt LoReTrack bei einer Auflösung von 256x256 konsistent bessere Baseline-Ergebnisse bei gleicher Auflösung und erreicht wettbewerbsfähige oder sogar bessere Ergebnisse im Vergleich zum hochaufgelösten Transformer-Verfolger mit 384x384-Auflösung, während er 52% schneller läuft und 56% weniger MACs benötigt. Darüber hinaus ist LoReTrack auflösungs-skalierbar. Bei einer Auflösung von 128x128 erreicht er auf einem CPU 25 fps mit SUC-Werten von 64,9%/46,4% auf LaSOT/LaSOText und übertreffen alle anderen CPU-Echtzeit-Verfolger. Der Code wird veröffentlicht werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp