HyperAIHyperAI

Command Palette

Search for a command to run...

TransCenter: Transformers mit dichten Darstellungen für die mehrfache Objektverfolgung

Yihong Xu Yutong Ban Guillaume Delorme Chuang Gan Daniela Rus Xavier Alameda-Pineda

Zusammenfassung

Seit ihrer Einführung haben Transformers eine überlegene Leistung für eine Vielzahl von Aufgaben gezeigt. In den letzten Jahren haben sie auch das Interesse der Vision-Community bei Aufgaben wie Bildklassifikation und Objektdetektion geweckt. Trotz dieser Entwicklung existiert bislang kein präzises und effizientes Mehrobjektverfolgungssystem (Multiple-Object Tracking, MOT), das auf Transformers basiert. Wir argumentieren, dass die direkte Anwendung einer Transformer-Architektur mit quadratischer Komplexität und unzureichend rauschbasierten, sparsen Abfragen nicht optimal für MOT ist. Wir stellen TransCenter vor, eine auf Transformers basierende MOT-Architektur mit dichten Repräsentationen, die es ermöglicht, alle Objekte präzise zu verfolgen, während gleichzeitig eine akzeptable Laufzeit gewährleistet wird. Methodisch schlagen wir die Verwendung von dichten, bildbezogenen Detektionsabfragen und effizienten, sparsen Verfolgungsabfragen vor, die durch unsere sorgfältig entworfene Query-Learning-Netzwerke (QLN) generiert werden. Einerseits ermöglichen die dichten, bildbezogenen Detektionsabfragen eine globale und robuste Schätzung der Zielpositionen über dichte Heatmap-Ausgaben. Andererseits interagieren die sparsen Verfolgungsabfragen effizient mit den Bildmerkmalen im TransCenter-Decoder, um Objektpositionen über die Zeit hinweg zu assoziieren. Infolge dessen zeigt TransCenter signifikante Leistungsverbesserungen und übertrifft bei zwei Standard-MOT-Benchmarks mit zwei unterschiedlichen Verfolgungs-Settings (öffentlich/private) deutlich die derzeitigen State-of-the-Art-Methoden. TransCenter wird zudem durch eine umfassende Ablationstudie sowie Vergleiche mit naiveren Alternativen und gleichzeitig veröffentlichten Arbeiten als effizient und genau bestätigt. Aus wissenschaftlichem Interesse steht der Quellcode öffentlich auf https://github.com/yihongxu/transcenter zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp