HyperAIHyperAI

Command Palette

Search for a command to run...

TP-GMOT: Verfolgung generischer mehrerer Objekte durch textuelle Anweisung mit Bewegungs-Erscheinungskosten (MAC) SORT

Duy Le Dinh Anh Kim Hoang Tran Ngan Hoang Le

Zusammenfassung

Während die Mehrzielverfolgung (Multi-Object Tracking, MOT) erhebliche Fortschritte gemacht hat, ist sie durch eine starke Abhängigkeit von Vorwissen und die Begrenzung auf vorgegebene Kategorien eingeschränkt. Im Gegensatz dazu verfolgt die generische Mehrzielverfolgung (Generic Multiple Object Tracking, GMOT), bei der mehrere Objekte mit ähnlicher Erscheinung verfolgt werden, weniger Vorinformation über die Ziele, aber sie stellt vor Herausforderungen wie Blickwinkel, Beleuchtung, Verdeckung und Auflösung. Unsere Beiträge beginnen mit der Einführung des \textbf{\text{Refer-GMOT-Datensatzes}}, einer Sammlung von Videos, die jeweils detaillierte textuelle Beschreibungen ihrer Attribute enthalten. Anschließend stellen wir einen neuen textbasierten offenen Vokabular GMOT-Rahmen, genannt \textbf{\text{TP-GMOT}}, vor, der in der Lage ist, bisher nicht gesehene Objektkategorien ohne Trainingsbeispiele zu verfolgen. Innerhalb des \text{TP-GMOT}-Rahmens führen wir zwei neue Komponenten ein: (i) \textbf{\text{TP-OD}}, eine Objekterkennung durch einen textuellen Prompt, zur genauen Erkennung von unbekannten Objekten mit spezifischen Merkmalen. (ii) Motion-Appearance Cost SORT \textbf{\text{MAC-SORT}}, einen neuen Ansatz zur Objektzuordnung, der bewegungs- und erscheinungsbezogene Zuordnungsstrategien geschickt kombiniert, um die komplexe Aufgabe der Verfolgung mehrerer generischer Objekte mit hoher Ähnlichkeit zu meistern. Unsere Beiträge werden am \text{Refer-GMOT}-Datensatz für die GMOT-Aufgabe evaluiert. Darüber hinaus führen wir Reduktionstests (Ablation Studies) am DanceTrack- und MOT20-Datensatz durch, um die Generalisierungsfähigkeit des vorgeschlagenen \text{TP-GMOT}-Rahmens und die Effektivität des \text{MAC-SORT}-Trackers zu bewerten. Unser Datensatz, unser Code und unsere Modelle werden öffentlich verfügbar sein unter: https://fsoft-aic.github.io/TP-GMOT


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp