MeMOTR: Long-Term Memory-Augmented Transformer für die Multi-Object-Verfolgung

Als Videotask wird bei der Mehrfachobjektverfolgung (Multiple Object Tracking, MOT) erwartet, die zeitlichen Informationen der Objekte effektiv zu erfassen. Leider nutzen die meisten bestehenden Methoden lediglich explizit die Objektmerkmale zwischen benachbarten Frames, verfügen jedoch über keine Fähigkeit, langfristige zeitliche Informationen zu modellieren. In diesem Artikel stellen wir MeMOTR vor – einen Transformer mit langfristigem Gedächtnis für die Mehrfachobjektverfolgung. Unser Ansatz ermöglicht es, die Track-Embeddings derselben Objekte durch die Einbindung eines maßgeschneiderten Gedächtnis-Attention-Layers stabiler und unterscheidbarer zu gestalten. Dadurch wird die Fähigkeit des Modells zur Objektassoziierung erheblich verbessert. Experimentelle Ergebnisse auf DanceTrack zeigen, dass MeMOTR die bisher beste Methode um 7,9 % und 13,0 % bezüglich der HOTA- und AssA-Metriken übertrifft. Zudem erzielt unser Modell auch auf MOT17 eine bessere Assoziationsleistung als andere Transformer-basierte Ansätze und zeigt eine gute Generalisierbarkeit auf BDD100K. Der Quellcode ist unter https://github.com/MCG-NJU/MeMOTR verfügbar.