HyperAIHyperAI
vor 2 Monaten

DVANet: Trennung von Sicht- und Aktionseigenschaften für die Mehrsicht-Aktionserkennung

Siddiqui, Nyle ; Tirupattur, Praveen ; Shah, Mubarak
DVANet: Trennung von Sicht- und Aktionseigenschaften für die Mehrsicht-Aktionserkennung
Abstract

In dieser Arbeit präsentieren wir einen neuen Ansatz zur Mehrkamerasicht-Handlungserkennung, bei dem wir gelernte Handlungsrepräsentationen von sichtabhängigen Informationen in einem Video trennen. Bei der Klassifizierung von Handlungsinstanzen, die aus mehreren Perspektiven aufgenommen wurden, steigt der Schwierigkeitsgrad aufgrund der Unterschiede im Hintergrund, in der Verdeckung und in der Sichtbarkeit der erfassten Handlung aus verschiedenen Kamerasichten. Um die verschiedenen Probleme in der Mehrkamerasicht-Handlungserkennung zu bewältigen, schlagen wir eine neue Konfiguration lernfähiger Transformer-Decoder-Abfragen vor, kombiniert mit zwei überwachten kontrastiven Verlustfunktionen, um das Lernen von Handlungsmerkmalen zu erzwingen, die robust gegenüber Verschiebungen in den Perspektiven sind. Unser entkoppeltes Merkmalslernen erfolgt in zwei Stufen: Der Transformer-Decoder verwendet getrennte Abfragen, um Handlungs- und Sichtinformationen separat zu lernen, die dann durch unsere beiden kontrastiven Verlustfunktionen weiter entkoppelt werden. Wir zeigen, dass unser Modell und unsere Trainingsmethode auf vier Mehrkamerasicht-Datensätzen für Handlungserkennung – NTU RGB+D, NTU RGB+D 120, PKU-MMD und N-UCLA – deutlich bessere Ergebnisse liefert als alle anderen unimodalen Modelle. Im Vergleich zu früheren RGB-Studien beobachten wir maximale Verbesserungen von 1,5\%, 4,8\%, 2,2\% und 4,8\% auf jedem Datensatz jeweils.