PoTion: Pose MoTion Darstellung für die Aktionserkennung

Die meisten aktuell fortschrittlichsten Methoden zur Aktenerkennung basieren auf einer Zweistromarchitektur, die Erscheinungsbild und Bewegung unabhängig voneinander verarbeitet. In diesem Artikel argumentieren wir, dass die gemeinsame Berücksichtigung beider Modalitäten reichhaltige Informationen für die Aktenerkennung liefert. Wir stellen eine neuartige Darstellung vor, die die Bewegung semantischer Schlüsselpunkte elegant codiert. Hierbei verwenden wir menschliche Gelenke als diese Schlüsselpunkte und bezeichnen unsere Darstellung als Pose moTion – PoTion. Konkret führen wir zunächst einen state-of-the-art menschlichen Pose-Tracker aus und extrahieren Heatmaps für die menschlichen Gelenke in jedem Frame. Unser PoTion-Darstellung ergibt sich durch zeitliche Aggregation dieser Wahrscheinlichkeitskarten, wobei jede Karte je nach relativer Zeitposition im Video-Clip farbkodiert und anschließend summiert wird. Diese festen, auf das gesamte Video-Clip bezogenen Darstellungen eignen sich ideal zur Aktenerkennung mittels eines flachen konvolutionellen neuronalen Netzes. Unsere experimentelle Bewertung zeigt, dass PoTion andere state-of-the-art Pose-Darstellungen übertrifft. Zudem ergänzt PoTion die herkömmlichen Erscheinungs- und Bewegungsströme komplementär. Bei der Kombination von PoTion mit dem jüngsten Zweistromansatz I3D [5] erreichen wir state-of-the-art Ergebnisse auf den Datensätzen JHMDB, HMDB und UCF101.