BlockGCN: Topologiebewusstsein neu definieren für aktionsbasierte Anerkennung auf der Grundlage von Skeletten

Graph Convolutional Networks (GCNs) haben sich seit langem als State-of-the-Art in der aktionsbasierten Erkennung auf Grundlage von Skelettdaten etabliert, da sie die komplexen Dynamiken der menschlichen Gelenktopologie durch die Adjazenzmatrix des Graphen effektiv erfassen können. Dennoch hat sich bei diesen fortschrittlichen Modellen ein inhärenter Nachteil offenbart: Sie optimieren die Adjazenzmatrix gemeinsam mit den Modellgewichten. Dieser Prozess, der scheinbar effizient erscheint, führt jedoch zu einem graduellen Verlust der Knochenverbindungsdaten und resultiert in einem Modell, das gegenüber der eigentlichen Topologie, die es darstellen soll, indifferent wird. Um dies zu beheben, schlagen wir eine zweifache Strategie vor: (1) Wir stellen einen innovativen Ansatz vor, der die Knochenverbindungsstruktur durch die Nutzung von Graphentfernungen zur Beschreibung der physikalischen Topologie kodiert; zudem integrieren wir eine handlungsbezogene topologische Repräsentation mittels persistenter Homologie-Analyse, um systemische Dynamiken präzise abzubilden. Dadurch werden die entscheidenden topologischen Feinheiten bewahrt, die in herkömmlichen GCNs oft verloren gehen. (2) Unsere Untersuchung zeigt zudem eine Redundanz in bestehenden GCNs bei der Modellierung mehrerer Relationen, die wir durch die Einführung einer effizienten Verbesserung der Graphfaltung (Graph Convolution, GC) – die sogenannte BlockGC – adressieren. Diese reduziert signifikant die Anzahl der Parameter und übertrifft gleichzeitig die Leistungsfähigkeit der ursprünglichen GCNs. Unser vollständiges Modell, BlockGCN, etabliert neue Benchmark-Werte in der Skelett-basierten Aktionserkennung über alle Modellkategorien hinweg. Seine hohe Genauigkeit und die leichtgewichtige Architektur, insbesondere auf dem großskaligen NTU RGB+D 120-Datensatz, bilden eine überzeugende Validierung der Wirksamkeit von BlockGCN.