HyperAIHyperAI
vor 11 Tagen

Dual DETRs für die Multi-Label Temporale Aktionsdetektion

Yuhan Zhu, Guozhen Zhang, Jing Tan, Gangshan Wu, Limin Wang
Dual DETRs für die Multi-Label Temporale Aktionsdetektion
Abstract

Die zeitliche Aktionsdetektion (Temporal Action Detection, TAD) zielt darauf ab, sowohl die zeitlichen Grenzen als auch die zugehörigen Kategorien von Aktionen in ungeschnittenen Videos zu identifizieren. Inspiriert vom Erfolg von DETR in der Objektdetektion haben mehrere Ansätze den abfragbasierten Rahmen auf die TAD-Aufgabe adaptiert. Allerdings folgten diese Ansätze hauptsächlich DETR, indem sie Aktionen auf Instanzebene vorhersagten (d. h., jede Aktion wurde durch ihren Mittelpunkt identifiziert), was zu einer suboptimalen Lokalisierung der Aktionsgrenzen führte. Um dieses Problem anzugehen, schlagen wir einen neuen dualen, abfragbasierten TAD-Framework vor, namens DualDETR, der Aktionen sowohl auf Instanzebene als auch auf Grenzenebene detektiert. Da die Dekodierung auf unterschiedlichen Ebenen unterschiedliche semantische Granularität erfordert, führen wir eine zweigeteilte Dekodierstruktur ein. Diese Struktur etabliert unterschiedliche Dekodierprozesse für die jeweiligen Ebenen und ermöglicht eine explizite Erfassung zeitlicher Hinweise und Semantik auf jeder Ebene. Aufbauend auf der zweigeteilten Architektur präsentieren wir eine gemeinsame Abfrageinitialisierungsstrategie, um die Abfragen beider Ebenen zu alignieren. Konkret nutzen wir Vorschläge des Encoders, um die Abfragen beider Ebenen eindeutig paarweise zuzuordnen. Anschließend werden die zugeordneten Abfragen mit Position- und Inhaltsprior aus der zugeordneten Aktionsvorschlag initialisiert. Die ausgerichteten dualen Abfragen können während der nachfolgenden Dekodierung die zugeordneten Vorschläge mit komplementären Hinweisen verfeinern. Wir evaluieren DualDETR auf drei anspruchsvollen, mehrlabelbasierten TAD-Benchmarks. Die experimentellen Ergebnisse zeigen die überlegene Leistung von DualDETR gegenüber bestehenden State-of-the-Art-Methoden und erzielen eine erhebliche Verbesserung hinsichtlich det-mAP sowie beeindruckende Ergebnisse hinsichtlich seg-mAP.

Dual DETRs für die Multi-Label Temporale Aktionsdetektion | Neueste Forschungsarbeiten | HyperAI