HyperAIHyperAI
vor 11 Tagen

DCAN: Verbesserung der zeitlichen Aktionsdetektion durch Dualen Kontext-Aggregation

Guo Chen, Yin-Dong Zheng, Limin Wang, Tong Lu
DCAN: Verbesserung der zeitlichen Aktionsdetektion durch Dualen Kontext-Aggregation
Abstract

Die zeitliche Aktionsdetektion zielt darauf ab, die Grenzen von Aktionen in Videos zu lokalisieren. Die derzeitigen Methoden basierend auf Grenzabgleich enumerieren und berechnen alle möglichen Grenzabgleichungen, um Vorschläge zu generieren. Diese Ansätze vernachlässigen jedoch die Langstrecken-Context-Aggregation bei der Vorhersage von Grenzen. Gleichzeitig kann aufgrund der ähnlichen Semantik benachbarter Abgleichungen die lokale Semantik-Aggregation dichter generierter Abgleichungen die semantische Reichhaltigkeit und Unterscheidbarkeit nicht verbessern. In diesem Paper stellen wir eine end-to-end-Vorschlagsgenerierungsmethode namens Dual Context Aggregation Network (DCAN) vor, die Context auf zwei Ebenen – nämlich auf der Grenz- und auf der Vorschlags-Ebene – aggregiert, um hochwertige Aktionsvorschläge zu generieren und somit die Leistung der zeitlichen Aktionsdetektion zu verbessern. Konkret entwerfen wir die Multi-Path Temporal Context Aggregation (MTCA), um eine reibungslose Context-Aggregation auf der Grenz-Ebene und eine präzise Bewertung von Grenzen zu erreichen. Für die Abgleichbewertung wird die Coarse-to-Fine Matching (CFM)-Methode entwickelt, um Context auf der Vorschlags-Ebene zu aggregieren und die Abgleichkarte von grob nach fein zu verfeinern. Wir führen umfangreiche Experimente auf ActivityNet v1.3 und THUMOS-14 durch. DCAN erreicht eine durchschnittliche mAP von 35,39 % auf ActivityNet v1.3 und eine mAP von 54,14 % bei IoU@0,5 auf THUMOS-14, was zeigt, dass DCAN hochwertige Vorschläge generieren und eine state-of-the-art-Leistung erzielen kann. Den Quellcode stellen wir unter https://github.com/cg1177/DCAN zur Verfügung.

DCAN: Verbesserung der zeitlichen Aktionsdetektion durch Dualen Kontext-Aggregation | Neueste Forschungsarbeiten | HyperAI