IGFormer: Interaktionsgraph-Transformer für die Skelettbasierte Erkennung menschlicher Interaktionen

Die Erkennung menschlicher Interaktionen ist in vielen Anwendungen von großer Bedeutung. Ein entscheidender Hinweis bei der Erkennung einer Interaktion sind die interaktiven Körperteile. In dieser Arbeit schlagen wir ein neues Netzwerk vor, das auf einem Interaction Graph Transformer (IGFormer) basiert und die interaktiven Körperteile als Graphen modelliert, um auf Skelettbasis Interaktionen zu erkennen. Genauer gesagt konstruiert der vorgeschlagene IGFormer Interaktionsgraphen gemäß den semantischen und räumlichen Korrelationen zwischen den interaktiven Körperteilen und verbessert die Darstellung jeder Person durch die Aggregation der Informationen der interaktiven Körperteile auf Basis der gelernten Graphen. Des Weiteren schlagen wir ein Semantisches Partitionierungsmodul (Semantic Partition Module) vor, das jede Folge eines menschlichen Skeletts in eine Körper-Teil-Zeit-Folge transformiert, um die räumliche und zeitliche Information der Skelettfolge besser zu erfassen, um die Graphen zu lernen. Ausführliche Experimente auf drei Benchmark-Datensätzen zeigen, dass unser Modell den aktuellen Stand der Technik erheblich übertrifft.