TransTrack: Mehrfachobjektverfolgung mit Transformer

In dieser Arbeit schlagen wir TransTrack vor, ein einfaches, aber effizientes Verfahren zur Lösung von Mehrfachobjektverfolgungsproblemen. TransTrack nutzt die Transformer-Architektur, die auf einem aufmerksamkeitsbasierten Abfrage-Schlüssel-Mechanismus (query-key mechanism) basiert. Es verwendet die Objektmerkmale des vorherigen Bildes als Abfrage für das aktuelle Bild und führt eine Reihe gelernter Objektabfragen ein, um die Erkennung neuer auftretender Objekte zu ermöglichen. TransTrack etabliert ein neuartiges Paradigma der gleichzeitigen Objekterkennung und -verfolgung, indem es Objekterkennung und Objektzuordnung in einem einzigen Schritt durchführt, was komplizierte mehrstufige Einstellungen in den Verfolgungsverfahren nach der Erkennung vereinfacht. Auf den Benchmarks MOT17 und MOT20 erreicht TransTrack jeweils 74,5 % und 64,5 % MOTA (Multiple Object Tracking Accuracy), wodurch es sich mit den besten aktuellen Methoden messen kann. Wir erwarten, dass TransTrack eine neue Perspektive für die Mehrfachobjektverfolgung bietet. Der Code ist unter folgender URL verfügbar: \url{https://github.com/PeizeSun/TransTrack}.