HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von räumlich-zeitlichen Transformatoren für visuelle Verfolgung

Bin Yan Houwen Peng Jianlong Fu Dong Wang Huchuan Lu

Zusammenfassung

In dieser Arbeit stellen wir eine neue Tracking-Architektur vor, bei der ein Encoder-Decoder-Transformer das zentrale Element darstellt. Der Encoder modelliert die globalen räumlich-zeitlichen Abhängigkeiten zwischen Zielobjekten und Suchbereichen, während der Decoder eine Query-Einbettung lernt, um die räumlichen Positionen der Zielobjekte zuvorzusagen. Unsere Methode behandelt Objektverfolgung als direktes Problem der Bounding-Box-Vorhersage, ohne dabei auf Vorschläge oder vorgegebene Ankerpunkte zurückzugreifen. Mit dem Encoder-Decoder-Transformer wird die Vorhersage von Objekten durch ein einfaches vollkonvolutionsbasiertes Netzwerk (Fully-Convolutional Network) durchgeführt, das die Ecken der Objekte direkt schätzt. Die gesamte Methode ist end-to-end und benötigt keine nachgeschalteten Verarbeitungsschritte wie Cosinus-Fenster oder Bounding-Box-Glättung, was bestehende Tracking-Pipelines erheblich vereinfacht. Der vorgeschlagene Tracker erreicht den Stand der Technik in fünf anspruchsvollen Benchmarks für kurzfristige und langfristige Verfolgung und läuft dabei in Echtzeitgeschwindigkeit, wobei er sechs Mal schneller als Siam R-CNN ist. Der Quellcode und die Modelle sind Open Source unter https://github.com/researchmm/Stark.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp