HyperAIHyperAI

Command Palette

Search for a command to run...

Fusion-GCN: Mehrmodale Aktionserkennung mit Graphenkonvolutionalnetzen

Michael Duhme, Raphael Memmesheimer, Dietrich Paulus

Zusammenfassung

In dieser Arbeit stellen wir Fusion-GCN vor, einen Ansatz zur multimodalen Aktionserkennung unter Verwendung von Graph Convolutional Networks (GCNs). Methoden zur Aktionserkennung, die auf GCNs basieren, erzielten kürzlich den Stand der Technik in der Skelettbasierten Aktionserkennung. Mit Fusion-GCN schlagen wir vor, verschiedene Sensordatenmodalitäten in einen Graphen zu integrieren, der mit einem GCN-Modell für die multimodale Aktionserkennung trainiert wird. Zusätzliche Sensormessungen werden in die Graphdarstellung entweder auf einer Kanaldimension (durch Einführung zusätzlicher Knoteneigenschaften) oder auf einer räumlichen Dimension (durch Einführung neuer Knoten) integriert. Fusion-GCN wurde anhand zweier öffentlich zugänglicher Datensätze evaluiert, nämlich des UTD-MHAD- und des MMACT-Datensatzes, und zeigt eine flexible Fusion von RGB-Sequenzen, Trägheitsmessungen und Skelettdatensequenzen. Unser Ansatz erzielt vergleichbare Ergebnisse im UTD-MHAD-Datensatz und verbessert das Baseline-Modell im groß angelegten MMACT-Datensatz um einen signifikanten Marginalwert von bis zu 12,37 % (F1-Maß) durch die Fusion von Skelettenschätzungen und Beschleunigungsmessungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp