Gekoppelte Mehrström-Netzwerke zur Ausnutzung von Pose, Bewegung und Erscheinung für die Klassifizierung und Detektion von Aktionen

Die allgemeine Erkennung menschlicher Aktivitäten erfordert das Verständnis verschiedener visueller Hinweise. In dieser Arbeit schlagen wir eine Netzwerkarchitektur vor, die die wichtigsten visuellen Hinweise für die Aktionserkennung berechnet und integriert: Pose, Bewegung und die rohen Bilder. Für die Integration führen wir ein Markov-Kettenmodell ein, das die Hinweise sukzessive hinzufügt. Der resultierende Ansatz ist effizient und kann sowohl für die Aktionklassifizierung als auch für die räumliche und zeitliche Lokalisierung von Aktionen angewendet werden. Die beiden Beiträge verbessern das Leistungsniveau deutlich im Vergleich zu den jeweiligen Baselines. Der gesamte Ansatz erreicht auf dem Stand der Technik basierende Ergebnisse in der Aktionklassifizierung auf den Datensätzen HMDB51, J-HMDB und NTU RGB+D. Darüber hinaus liefert er Stand-der-Technik-gemäße räumlich-zeitliche Lokalisierungsergebnisse von Aktionen auf den Datensätzen UCF101 und J-HMDB.