Fusion-GCN: Mehrmodale Aktionserkennung mit Graphenkonvolutionalnetzen

In dieser Arbeit stellen wir Fusion-GCN vor, einen Ansatz zur multimodalen Aktionserkennung unter Verwendung von Graph Convolutional Networks (GCNs). Methoden zur Aktionserkennung, die auf GCNs basieren, erzielten kürzlich den Stand der Technik in der Skelettbasierten Aktionserkennung. Mit Fusion-GCN schlagen wir vor, verschiedene Sensordatenmodalitäten in einen Graphen zu integrieren, der mit einem GCN-Modell für die multimodale Aktionserkennung trainiert wird. Zusätzliche Sensormessungen werden in die Graphdarstellung entweder auf einer Kanaldimension (durch Einführung zusätzlicher Knoteneigenschaften) oder auf einer räumlichen Dimension (durch Einführung neuer Knoten) integriert. Fusion-GCN wurde anhand zweier öffentlich zugänglicher Datensätze evaluiert, nämlich des UTD-MHAD- und des MMACT-Datensatzes, und zeigt eine flexible Fusion von RGB-Sequenzen, Trägheitsmessungen und Skelettdatensequenzen. Unser Ansatz erzielt vergleichbare Ergebnisse im UTD-MHAD-Datensatz und verbessert das Baseline-Modell im groß angelegten MMACT-Datensatz um einen signifikanten Marginalwert von bis zu 12,37 % (F1-Maß) durch die Fusion von Skelettenschätzungen und Beschleunigungsmessungen.