vor 16 Tagen

VPN++: Eine Neubewertung von Video-Pose-Embeddings zur Verständnis von Aktivitäten des täglichen Lebens

Srijan Das, Rui Dai, Di Yang, Francois Bremond

Abstract

Viele Versuche wurden unternommen, um RGB-Daten und 3D-Gesten zur Erkennung von Aktivitäten des täglichen Lebens (Activities of Daily Living, ADL) zu kombinieren. ADL können sehr ähnlich aussehen und erfordern oft die Modellierung feinster Details, um sie voneinander zu unterscheiden. Da aktuelle 3D-ConvNets zu starr sind, um subtile visuelle Muster über eine Aktion hinweg zu erfassen, dominieren in dieser Forschungsrichtung Methoden, die RGB-Daten und 3D-Gesten kombinieren. Allerdings ist die Berechnung von 3D-Gesten aus einem RGB-Stream ohne geeignete Sensoren rechenintensiv und kostspielig. Dies begrenzt die Anwendung solcher Ansätze in realen Anwendungen, die eine geringe Latenz erfordern. Wie kann nun am besten von 3D-Gesten zur Erkennung von ADL profitiert werden? Hierzu schlagen wir eine Erweiterung eines auf Gesten basierenden Aufmerksamkeitsmechanismus vor: das Video-Pose-Netzwerk (VPN), das zwei verschiedene Ansätze verfolgt. Der eine Ansatz besteht darin, Wissen über Gesten auf die RGB-Daten durch eine Merkmals-Level-Distillation zu übertragen, der andere zielt darauf ab, den auf Gesten basierenden Aufmerksamkeitsmechanismus durch eine Aufmerksamkeits-Level-Distillation nachzuahmen. Schließlich werden diese beiden Ansätze in einem einzigen Modell integriert, das wir VPN++ nennen. Wir zeigen, dass VPN++ nicht nur effektiv ist, sondern zudem eine hohe Beschleunigung und hohe Robustheit gegenüber verrauschten Gesten bietet. VPN++, unabhängig davon, ob 3D-Gesten zur Verfügung stehen oder nicht, übertrifft die repräsentativen Baselines auf vier öffentlichen Datensätzen. Der Quellcode ist unter https://github.com/srijandas07/vpnplusplus verfügbar.