PSUMNet: Unified Modality Part Streams sind alles, was für eine effiziente posebasierte Aktenerkennung benötigt wird

Die aktionsbasierte Anerkennung auf Basis von Körperhaltungen wird in der Regel durch Ansätze angegangen, die den Eingabeskelett monolithisch behandeln, d. h., die Gelenke im Haltungsbaum werden als Ganzes verarbeitet. Solche Ansätze ignorieren jedoch die Tatsache, dass Aktionskategorien oft durch lokalisierte Bewegungsdynamiken gekennzeichnet sind, die nur kleine Teilgruppen von Gelenkgruppen betreffen, beispielsweise Hände (z. B. „Daumen hoch“) oder Beine (z. B. „Treten“). Obwohl Ansätze basierend auf Teilgruppierung existieren, werden diese Teilgruppen nicht im globalen Haltungsrahmen betrachtet, wodurch diese Methoden an Effizienz verlieren. Zudem verwenden herkömmliche Ansätze unabhängige Modalitätsströme (z. B. Gelenk, Knochen, Gelenkgeschwindigkeit, Knochengeschwindigkeit) und trainieren ihr Netzwerk mehrfach auf diesen Strömen, was die Anzahl der Trainingsparameter erheblich erhöht. Um diese Probleme zu adressieren, stellen wir PSUMNet vor – einen neuartigen Ansatz für skalierbare und effiziente, auf Körperhaltungen basierende Aktionserkennung. Auf der Repräsentationsebene schlagen wir einen globalen Rahmen-basierten Teilströmansatz vor, im Gegensatz zu herkömmlichen modalitybasierten Strömen. Innerhalb jeder Teilström wird die Daten aus mehreren Modalitäten vereinheitlicht und von der Verarbeitungspipeline verarbeitet. Experimentell erreicht PSUMNet den Stand der Technik auf den weit verbreiteten Datensätzen NTURGB+D 60/120 und dem dichten Gelenkskelett-Datensatz NTU 60-X/120-X. PSUMNet ist äußerst effizient und übertrifft konkurrierende Methoden, die 100 % bis 400 % mehr Parameter verwenden. Zudem verallgemeinert sich PSUMNet erfolgreich auf den SHREC-Handgesten-Datensatz mit wettbewerbsfähigen Ergebnissen. Insgesamt macht die Skalierbarkeit, Leistungsfähigkeit und Effizienz von PSUMNet es zu einer attraktiven Wahl für die Aktionserkennung und zur Bereitstellung auf rechenbeschränkten eingebetteten und Edge-Geräten. Der Quellcode und vortrainierte Modelle sind unter https://github.com/skelemoa/psumnet verfügbar.