HyperAIHyperAI

Command Palette

Search for a command to run...

MeMOTR: Long-Term Memory-Augmented Transformer für die Multi-Object-Verfolgung

Ruopeng Gao Limin Wang

Zusammenfassung

Als Videotask wird bei der Mehrfachobjektverfolgung (Multiple Object Tracking, MOT) erwartet, die zeitlichen Informationen der Objekte effektiv zu erfassen. Leider nutzen die meisten bestehenden Methoden lediglich explizit die Objektmerkmale zwischen benachbarten Frames, verfügen jedoch über keine Fähigkeit, langfristige zeitliche Informationen zu modellieren. In diesem Artikel stellen wir MeMOTR vor – einen Transformer mit langfristigem Gedächtnis für die Mehrfachobjektverfolgung. Unser Ansatz ermöglicht es, die Track-Embeddings derselben Objekte durch die Einbindung eines maßgeschneiderten Gedächtnis-Attention-Layers stabiler und unterscheidbarer zu gestalten. Dadurch wird die Fähigkeit des Modells zur Objektassoziierung erheblich verbessert. Experimentelle Ergebnisse auf DanceTrack zeigen, dass MeMOTR die bisher beste Methode um 7,9 % und 13,0 % bezüglich der HOTA- und AssA-Metriken übertrifft. Zudem erzielt unser Modell auch auf MOT17 eine bessere Assoziationsleistung als andere Transformer-basierte Ansätze und zeigt eine gute Generalisierbarkeit auf BDD100K. Der Quellcode ist unter https://github.com/MCG-NJU/MeMOTR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp