HyperAIHyperAI
vor 16 Tagen

Ich kenne die Beziehungen: Zero-Shot-Aktionserkennung mittels zweistrahliger Graphen-Convolutional Networks und Wissensgraphen

{Changsheng Xu, Tianzhu Zhang, Junyu Gao}
Abstract

Kürzlich wurde mit der stetig wachsenden Anzahl an Aktionen die zero-shot Aktionserkennung (ZSAR) erreicht, indem automatisch die zugrundeliegenden Konzepte (z. B. Aktionen, Attribute) in Videos erkannt wurden. Allerdings berücksichtigen die meisten bestehenden Methoden lediglich die visuellen Hinweise dieser Konzepte und ignorieren externe Wissensinformationen zur Modellierung expliziter Beziehungen zwischen ihnen. Tatsächlich verfügen Menschen über eine bemerkenswerte Fähigkeit, Wissen, das aus vertrauten Klassen gewonnen wurde, auf unbekannte Klassen zu übertragen. Um die Wissenslücke zwischen bestehenden Methoden und menschlichem Verständnis zu schließen, schlagen wir einen end-to-end-ZSAR-Framework basierend auf einem strukturierten Wissensgraphen vor, der gleichzeitig die Beziehungen zwischen Aktion-Attribut, Aktion-Aktion und Attribut-Attribut modellieren kann. Um das Wissensgraph effektiv auszunutzen, entwerfen wir ein neuartiges Two-Stream Graph Convolutional Network (TS-GCN), das aus einer Klassifikationszweig und einem Instanzzweig besteht. Konkret nimmt der Klassifikationszweig die semantischen Embedding-Vektoren aller Konzepte als Eingabe auf, um dann die Klassifikatoren für die Aktionen zu generieren. Der Instanzzweig projiziert die Attribut-Embeddings und -Scores jeder Video-Instanz in einen Attribut-Funktionsraum. Schließlich werden die generierten Klassifikatoren auf den Attribut-Funktionen jeder Video-Instanz bewertet, und eine Klassifikationsverlustfunktion wird verwendet, um das gesamte Netzwerk zu optimieren. Zusätzlich wird ein selbst-Attention-Modul eingesetzt, um die zeitliche Struktur von Videos zu modellieren. Umfangreiche experimentelle Ergebnisse auf drei realistischen Aktionen-Benchmarks – Olympic Sports, HMDB51 und UCF101 – belegen die überlegene Leistung des vorgeschlagenen Frameworks.

Ich kenne die Beziehungen: Zero-Shot-Aktionserkennung mittels zweistrahliger Graphen-Convolutional Networks und Wissensgraphen | Neueste Forschungsarbeiten | HyperAI