HyperAIHyperAI
vor 16 Tagen

G-TAD: Sub-Graph Lokalisierung für die zeitliche Aktionsdetektion

Mengmeng Xu, Chen Zhao, David S. Rojas, Ali Thabet, Bernard Ghanem
G-TAD: Sub-Graph Lokalisierung für die zeitliche Aktionsdetektion
Abstract

Die zeitliche Aktionsdetektion ist eine grundlegende, jedoch herausfordernde Aufgabe im Bereich des Videoverstehens. Der Video-Kontext stellt einen entscheidenden Hinweis dar, um Aktivitäten effektiv zu erkennen; aktuelle Ansätze konzentrieren sich jedoch hauptsächlich auf den zeitlichen Kontext und vernachlässigen dabei den semantischen Kontext sowie andere wichtige Kontexteigenschaften. In dieser Arbeit stellen wir ein Graph-Convolutional-Network (GCN)-Modell vor, das mehrstufigen semantischen Kontext adaptiv in Video-Features integriert und die zeitliche Aktionsdetektion als Problem der Untergraph-Lokalisierung formuliert. Konkret modellieren wir Videoclips als Knoten eines Graphen, die Korrelationen zwischen Clips als Kanten und mit Kontext assoziierte Aktivitäten als Zieluntergraphen. Unter Verwendung von Graph-Convolution als grundlegende Operation entwerfen wir einen GCN-Block namens GCNeXt, der die Merkmale jedes Knotens durch Aggregation seines Kontexts lernt und die Kanten im Graphen dynamisch aktualisiert. Um jeden Untergraphen zu lokalisieren, entwickeln wir zudem eine SGAlign-Schicht, die jeden Untergraphen in den euklidischen Raum einbettet. Ausführliche Experimente zeigen, dass G-TAD in der Lage ist, wirksame Video-Kontextinformationen ohne zusätzliche Überwachung zu identifizieren und auf zwei Detektionsbenchmarks Spitzenleistung erzielt. Auf ActivityNet-1.3 erreicht es eine durchschnittliche mAP von 34,09 %; auf THUMOS14 erreicht es bei [email protected] einen Wert von 51,6 %, wenn es in Kombination mit einer Vorschlagsverarbeitungsmethode eingesetzt wird. Der Quellcode von G-TAD ist öffentlich unter https://github.com/frostinassiky/gtad verfügbar.

G-TAD: Sub-Graph Lokalisierung für die zeitliche Aktionsdetektion | Neueste Forschungsarbeiten | HyperAI