HyperAIHyperAI

Command Palette

Search for a command to run...

Ich kenne die Beziehungen: Zero-Shot-Aktionserkennung mittels zweistrahliger Graphen-Convolutional Networks und Wissensgraphen

Changsheng Xu Tianzhu Zhang Junyu Gao

Zusammenfassung

Kürzlich wurde mit der stetig wachsenden Anzahl an Aktionen die zero-shot Aktionserkennung (ZSAR) erreicht, indem automatisch die zugrundeliegenden Konzepte (z. B. Aktionen, Attribute) in Videos erkannt wurden. Allerdings berücksichtigen die meisten bestehenden Methoden lediglich die visuellen Hinweise dieser Konzepte und ignorieren externe Wissensinformationen zur Modellierung expliziter Beziehungen zwischen ihnen. Tatsächlich verfügen Menschen über eine bemerkenswerte Fähigkeit, Wissen, das aus vertrauten Klassen gewonnen wurde, auf unbekannte Klassen zu übertragen. Um die Wissenslücke zwischen bestehenden Methoden und menschlichem Verständnis zu schließen, schlagen wir einen end-to-end-ZSAR-Framework basierend auf einem strukturierten Wissensgraphen vor, der gleichzeitig die Beziehungen zwischen Aktion-Attribut, Aktion-Aktion und Attribut-Attribut modellieren kann. Um das Wissensgraph effektiv auszunutzen, entwerfen wir ein neuartiges Two-Stream Graph Convolutional Network (TS-GCN), das aus einer Klassifikationszweig und einem Instanzzweig besteht. Konkret nimmt der Klassifikationszweig die semantischen Embedding-Vektoren aller Konzepte als Eingabe auf, um dann die Klassifikatoren für die Aktionen zu generieren. Der Instanzzweig projiziert die Attribut-Embeddings und -Scores jeder Video-Instanz in einen Attribut-Funktionsraum. Schließlich werden die generierten Klassifikatoren auf den Attribut-Funktionen jeder Video-Instanz bewertet, und eine Klassifikationsverlustfunktion wird verwendet, um das gesamte Netzwerk zu optimieren. Zusätzlich wird ein selbst-Attention-Modul eingesetzt, um die zeitliche Struktur von Videos zu modellieren. Umfangreiche experimentelle Ergebnisse auf drei realistischen Aktionen-Benchmarks – Olympic Sports, HMDB51 und UCF101 – belegen die überlegene Leistung des vorgeschlagenen Frameworks.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ich kenne die Beziehungen: Zero-Shot-Aktionserkennung mittels zweistrahliger Graphen-Convolutional Networks und Wissensgraphen | Paper | HyperAI