vor 16 Tagen

G-TAD: Sub-Graph Lokalisierung für die zeitliche Aktionsdetektion

Mengmeng Xu, Chen Zhao, David S. Rojas, Ali Thabet, Bernard Ghanem

Abstract

Die zeitliche Aktionsdetektion ist eine grundlegende, jedoch herausfordernde Aufgabe im Bereich des Videoverstehens. Der Video-Kontext stellt einen entscheidenden Hinweis dar, um Aktivitäten effektiv zu erkennen; aktuelle Ansätze konzentrieren sich jedoch hauptsächlich auf den zeitlichen Kontext und vernachlässigen dabei den semantischen Kontext sowie andere wichtige Kontexteigenschaften. In dieser Arbeit stellen wir ein Graph-Convolutional-Network (GCN)-Modell vor, das mehrstufigen semantischen Kontext adaptiv in Video-Features integriert und die zeitliche Aktionsdetektion als Problem der Untergraph-Lokalisierung formuliert. Konkret modellieren wir Videoclips als Knoten eines Graphen, die Korrelationen zwischen Clips als Kanten und mit Kontext assoziierte Aktivitäten als Zieluntergraphen. Unter Verwendung von Graph-Convolution als grundlegende Operation entwerfen wir einen GCN-Block namens GCNeXt, der die Merkmale jedes Knotens durch Aggregation seines Kontexts lernt und die Kanten im Graphen dynamisch aktualisiert. Um jeden Untergraphen zu lokalisieren, entwickeln wir zudem eine SGAlign-Schicht, die jeden Untergraphen in den euklidischen Raum einbettet. Ausführliche Experimente zeigen, dass G-TAD in der Lage ist, wirksame Video-Kontextinformationen ohne zusätzliche Überwachung zu identifizieren und auf zwei Detektionsbenchmarks Spitzenleistung erzielt. Auf ActivityNet-1.3 erreicht es eine durchschnittliche mAP von 34,09 %; auf THUMOS14 erreicht es bei [email protected] einen Wert von 51,6 %, wenn es in Kombination mit einer Vorschlagsverarbeitungsmethode eingesetzt wird. Der Quellcode von G-TAD ist öffentlich unter https://github.com/frostinassiky/gtad verfügbar.