HyperAIHyperAI
vor 2 Monaten

TP-GMOT: Verfolgung generischer mehrerer Objekte durch textuelle Anweisung mit Bewegungs-Erscheinungskosten (MAC) SORT

Anh, Duy Le Dinh ; Tran, Kim Hoang ; Le, Ngan Hoang
TP-GMOT: Verfolgung generischer mehrerer Objekte durch textuelle Anweisung mit Bewegungs-Erscheinungskosten (MAC) SORT
Abstract

Während die Mehrzielverfolgung (Multi-Object Tracking, MOT) erhebliche Fortschritte gemacht hat, ist sie durch eine starke Abhängigkeit von Vorwissen und die Begrenzung auf vorgegebene Kategorien eingeschränkt. Im Gegensatz dazu verfolgt die generische Mehrzielverfolgung (Generic Multiple Object Tracking, GMOT), bei der mehrere Objekte mit ähnlicher Erscheinung verfolgt werden, weniger Vorinformation über die Ziele, aber sie stellt vor Herausforderungen wie Blickwinkel, Beleuchtung, Verdeckung und Auflösung. Unsere Beiträge beginnen mit der Einführung des \textbf{\text{Refer-GMOT-Datensatzes}}, einer Sammlung von Videos, die jeweils detaillierte textuelle Beschreibungen ihrer Attribute enthalten. Anschließend stellen wir einen neuen textbasierten offenen Vokabular GMOT-Rahmen, genannt \textbf{\text{TP-GMOT}}, vor, der in der Lage ist, bisher nicht gesehene Objektkategorien ohne Trainingsbeispiele zu verfolgen. Innerhalb des \text{TP-GMOT}-Rahmens führen wir zwei neue Komponenten ein: (i) \textbf{\text{TP-OD}}, eine Objekterkennung durch einen textuellen Prompt, zur genauen Erkennung von unbekannten Objekten mit spezifischen Merkmalen. (ii) Motion-Appearance Cost SORT \textbf{\text{MAC-SORT}}, einen neuen Ansatz zur Objektzuordnung, der bewegungs- und erscheinungsbezogene Zuordnungsstrategien geschickt kombiniert, um die komplexe Aufgabe der Verfolgung mehrerer generischer Objekte mit hoher Ähnlichkeit zu meistern. Unsere Beiträge werden am \text{Refer-GMOT}-Datensatz für die GMOT-Aufgabe evaluiert. Darüber hinaus führen wir Reduktionstests (Ablation Studies) am DanceTrack- und MOT20-Datensatz durch, um die Generalisierungsfähigkeit des vorgeschlagenen \text{TP-GMOT}-Rahmens und die Effektivität des \text{MAC-SORT}-Trackers zu bewerten. Unser Datensatz, unser Code und unsere Modelle werden öffentlich verfügbar sein unter: https://fsoft-aic.github.io/TP-GMOT

TP-GMOT: Verfolgung generischer mehrerer Objekte durch textuelle Anweisung mit Bewegungs-Erscheinungskosten (MAC) SORT | Neueste Forschungsarbeiten | HyperAI