G-TAD: Sub-Graph Lokalisierung für die zeitliche Aktionsdetektion

Die zeitliche Aktionsdetektion ist eine grundlegende, jedoch herausfordernde Aufgabe im Bereich des Videoverstehens. Der Video-Kontext stellt einen entscheidenden Hinweis dar, um Aktivitäten effektiv zu erkennen; aktuelle Ansätze konzentrieren sich jedoch hauptsächlich auf den zeitlichen Kontext und vernachlässigen dabei den semantischen Kontext sowie andere wichtige Kontexteigenschaften. In dieser Arbeit stellen wir ein Graph-Convolutional-Network (GCN)-Modell vor, das mehrstufigen semantischen Kontext adaptiv in Video-Features integriert und die zeitliche Aktionsdetektion als Problem der Untergraph-Lokalisierung formuliert. Konkret modellieren wir Videoclips als Knoten eines Graphen, die Korrelationen zwischen Clips als Kanten und mit Kontext assoziierte Aktivitäten als Zieluntergraphen. Unter Verwendung von Graph-Convolution als grundlegende Operation entwerfen wir einen GCN-Block namens GCNeXt, der die Merkmale jedes Knotens durch Aggregation seines Kontexts lernt und die Kanten im Graphen dynamisch aktualisiert. Um jeden Untergraphen zu lokalisieren, entwickeln wir zudem eine SGAlign-Schicht, die jeden Untergraphen in den euklidischen Raum einbettet. Ausführliche Experimente zeigen, dass G-TAD in der Lage ist, wirksame Video-Kontextinformationen ohne zusätzliche Überwachung zu identifizieren und auf zwei Detektionsbenchmarks Spitzenleistung erzielt. Auf ActivityNet-1.3 erreicht es eine durchschnittliche mAP von 34,09 %; auf THUMOS14 erreicht es bei [email protected] einen Wert von 51,6 %, wenn es in Kombination mit einer Vorschlagsverarbeitungsmethode eingesetzt wird. Der Quellcode von G-TAD ist öffentlich unter https://github.com/frostinassiky/gtad verfügbar.