HyperAIHyperAI

Command Palette

Search for a command to run...

VPN++: Eine Neubewertung von Video-Pose-Embeddings zur Verständnis von Aktivitäten des täglichen Lebens

Srijan Das Rui Dai Di Yang Francois Bremond

Zusammenfassung

Viele Versuche wurden unternommen, um RGB-Daten und 3D-Gesten zur Erkennung von Aktivitäten des täglichen Lebens (Activities of Daily Living, ADL) zu kombinieren. ADL können sehr ähnlich aussehen und erfordern oft die Modellierung feinster Details, um sie voneinander zu unterscheiden. Da aktuelle 3D-ConvNets zu starr sind, um subtile visuelle Muster über eine Aktion hinweg zu erfassen, dominieren in dieser Forschungsrichtung Methoden, die RGB-Daten und 3D-Gesten kombinieren. Allerdings ist die Berechnung von 3D-Gesten aus einem RGB-Stream ohne geeignete Sensoren rechenintensiv und kostspielig. Dies begrenzt die Anwendung solcher Ansätze in realen Anwendungen, die eine geringe Latenz erfordern. Wie kann nun am besten von 3D-Gesten zur Erkennung von ADL profitiert werden? Hierzu schlagen wir eine Erweiterung eines auf Gesten basierenden Aufmerksamkeitsmechanismus vor: das Video-Pose-Netzwerk (VPN), das zwei verschiedene Ansätze verfolgt. Der eine Ansatz besteht darin, Wissen über Gesten auf die RGB-Daten durch eine Merkmals-Level-Distillation zu übertragen, der andere zielt darauf ab, den auf Gesten basierenden Aufmerksamkeitsmechanismus durch eine Aufmerksamkeits-Level-Distillation nachzuahmen. Schließlich werden diese beiden Ansätze in einem einzigen Modell integriert, das wir VPN++ nennen. Wir zeigen, dass VPN++ nicht nur effektiv ist, sondern zudem eine hohe Beschleunigung und hohe Robustheit gegenüber verrauschten Gesten bietet. VPN++, unabhängig davon, ob 3D-Gesten zur Verfügung stehen oder nicht, übertrifft die repräsentativen Baselines auf vier öffentlichen Datensätzen. Der Quellcode ist unter https://github.com/srijandas07/vpnplusplus verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp