HyperAIHyperAI

Command Palette

Search for a command to run...

Dual DETRs für die Multi-Label Temporale Aktionsdetektion

Yuhan Zhu Guozhen Zhang Jing Tan Gangshan Wu Limin Wang

Zusammenfassung

Die zeitliche Aktionsdetektion (Temporal Action Detection, TAD) zielt darauf ab, sowohl die zeitlichen Grenzen als auch die zugehörigen Kategorien von Aktionen in ungeschnittenen Videos zu identifizieren. Inspiriert vom Erfolg von DETR in der Objektdetektion haben mehrere Ansätze den abfragbasierten Rahmen auf die TAD-Aufgabe adaptiert. Allerdings folgten diese Ansätze hauptsächlich DETR, indem sie Aktionen auf Instanzebene vorhersagten (d. h., jede Aktion wurde durch ihren Mittelpunkt identifiziert), was zu einer suboptimalen Lokalisierung der Aktionsgrenzen führte. Um dieses Problem anzugehen, schlagen wir einen neuen dualen, abfragbasierten TAD-Framework vor, namens DualDETR, der Aktionen sowohl auf Instanzebene als auch auf Grenzenebene detektiert. Da die Dekodierung auf unterschiedlichen Ebenen unterschiedliche semantische Granularität erfordert, führen wir eine zweigeteilte Dekodierstruktur ein. Diese Struktur etabliert unterschiedliche Dekodierprozesse für die jeweiligen Ebenen und ermöglicht eine explizite Erfassung zeitlicher Hinweise und Semantik auf jeder Ebene. Aufbauend auf der zweigeteilten Architektur präsentieren wir eine gemeinsame Abfrageinitialisierungsstrategie, um die Abfragen beider Ebenen zu alignieren. Konkret nutzen wir Vorschläge des Encoders, um die Abfragen beider Ebenen eindeutig paarweise zuzuordnen. Anschließend werden die zugeordneten Abfragen mit Position- und Inhaltsprior aus der zugeordneten Aktionsvorschlag initialisiert. Die ausgerichteten dualen Abfragen können während der nachfolgenden Dekodierung die zugeordneten Vorschläge mit komplementären Hinweisen verfeinern. Wir evaluieren DualDETR auf drei anspruchsvollen, mehrlabelbasierten TAD-Benchmarks. Die experimentellen Ergebnisse zeigen die überlegene Leistung von DualDETR gegenüber bestehenden State-of-the-Art-Methoden und erzielen eine erhebliche Verbesserung hinsichtlich det-mAP sowie beeindruckende Ergebnisse hinsichtlich seg-mAP.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Dual DETRs für die Multi-Label Temporale Aktionsdetektion | Paper | HyperAI