Skelettbasierte Aktionserkennungsmodelle kleiner, schneller und besser machen

Obwohl die skeletonbasierte Aktionserkennung in den letzten Jahren große Erfolge erzielt hat, leiden die meisten existierenden Methoden unter einem großen Modellumfang und einer langsamen Ausführungszeit. Um dieses Problem zu lindern, analysieren wir Eigenschaften von Skelettsequenzen und schlagen ein Doppel-Feature Doppel-Bewegungsnetzwerk (DD-Net) für die skeletonbasierte Aktionserkennung vor. Durch die Verwendung einer leichten Netzstruktur (d.h., 0,15 Millionen Parameter) kann DD-Net eine sehr hohe Geschwindigkeit erreichen, nämlich 3.500 Bilder pro Sekunde (FPS) auf einer GPU oder 2.000 FPS auf einer CPU. Durch die Anwendung robuster Merkmale erreicht DD-Net den aktuellen Stand der Technik auf unseren experimentellen Datensätzen: SHREC (d.h., Handaktionen) und JHMDB (d.h., Körperaktionen). Unser Code wird später zusammen mit diesem Paper veröffentlicht werden.