HyperAIHyperAI
vor 11 Tagen

Hypergraph Transformer für die aktionsbasierte Anerkennung anhand von Skeletten

Yuxuan Zhou, Zhi-Qi Cheng, Chao Li, Yanwen Fang, Yifeng Geng, Xuansong Xie, Margret Keuper
Hypergraph Transformer für die aktionsbasierte Anerkennung anhand von Skeletten
Abstract

Die aktionserkennung basierend auf Skeletten zielt darauf ab, menschliche Aktionen anhand von Gelenkkoordinaten mit skelettalen Verbindungen zu erkennen. Indem man einen Graphen definiert, bei dem die Gelenke als Knoten und ihre natürlichen Verbindungen als Kanten dienen, haben frühere Arbeiten erfolgreich Graphen-Convolutional-Netze (GCNs) eingesetzt, um Gelenk-Ko-Occurrenzen zu modellieren und dabei überlegene Leistung erzielt. In jüngster Zeit wurde jedoch ein Limitation von GCNs identifiziert: die Topologie bleibt nach dem Training fest. Um diese Einschränkung zu lockern, wurde der Self-Attention (SA)-Mechanismus übernommen, um die Topologie der GCNs an die Eingabe anzupassen, was zu aktuellen hybriden Modellen mit Bestleistung führte. Gleichzeitig wurden auch Versuche unternommen, reine Transformers einzusetzen, die jedoch aufgrund des Fehlens struktureller Vorkenntnisse weiterhin hinter den führenden GCN-basierten Methoden zurückbleiben. Im Gegensatz zu hybriden Modellen schlagen wir eine elegantere Lösung vor, die die Knochenverbindungen über eine graphische Distanz-Embedding in den Transformer integriert. Unser Embedding bewahrt die Information der skelettalen Struktur während des Trainings, während GCNs diese lediglich zur Initialisierung nutzen. Wichtiger noch: Wir identifizieren ein grundlegendes Problem von Graphmodellen im Allgemeinen, nämlich, dass die Paaraggregation die höherordnigen kinematischen Abhängigkeiten zwischen Körpergelenken im Wesentlichen ignoriert. Um diese Lücke zu schließen, schlagen wir einen neuen Self-Attention-Mechanismus auf Hypergraphen vor, genannt Hypergraph Self-Attention (HyperSA), um inhärente, höherordnige Beziehungen in das Modell einzubinden. Wir bezeichnen das resultierende Modell als Hyperformer und zeigen, dass es die aktuell besten Graphmodelle hinsichtlich Genauigkeit und Effizienz auf den Datensätzen NTU RGB+D, NTU RGB+D 120 und Northwestern-UCLA übertrifft.

Hypergraph Transformer für die aktionsbasierte Anerkennung anhand von Skeletten | Neueste Forschungsarbeiten | HyperAI