PoTion: Pose MoTion Darstellung für die Aktionserkennung
{Jérôme Revaud Vasileios Choutas Cordelia Schmid Philippe Weinzaepfel}

Abstract
Die meisten aktuell fortschrittlichsten Methoden zur Aktenerkennung basieren auf einer Zweistromarchitektur, die Erscheinungsbild und Bewegung unabhängig voneinander verarbeitet. In diesem Artikel argumentieren wir, dass die gemeinsame Berücksichtigung beider Modalitäten reichhaltige Informationen für die Aktenerkennung liefert. Wir stellen eine neuartige Darstellung vor, die die Bewegung semantischer Schlüsselpunkte elegant codiert. Hierbei verwenden wir menschliche Gelenke als diese Schlüsselpunkte und bezeichnen unsere Darstellung als Pose moTion – PoTion. Konkret führen wir zunächst einen state-of-the-art menschlichen Pose-Tracker aus und extrahieren Heatmaps für die menschlichen Gelenke in jedem Frame. Unser PoTion-Darstellung ergibt sich durch zeitliche Aggregation dieser Wahrscheinlichkeitskarten, wobei jede Karte je nach relativer Zeitposition im Video-Clip farbkodiert und anschließend summiert wird. Diese festen, auf das gesamte Video-Clip bezogenen Darstellungen eignen sich ideal zur Aktenerkennung mittels eines flachen konvolutionellen neuronalen Netzes. Unsere experimentelle Bewertung zeigt, dass PoTion andere state-of-the-art Pose-Darstellungen übertrifft. Zudem ergänzt PoTion die herkömmlichen Erscheinungs- und Bewegungsströme komplementär. Bei der Kombination von PoTion mit dem jüngsten Zweistromansatz I3D [5] erreichen wir state-of-the-art Ergebnisse auf den Datensätzen JHMDB, HMDB und UCF101.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| action-classification-on-charades | PoTion + (GCN + I3D + NL I3D) | MAP: 40.8 |
| action-recognition-in-videos-on-ucf101 | I3D + PoTion | 3-fold Accuracy: 29.3 |
| skeleton-based-action-recognition-on-j-hmdb | Potion | Accuracy (RGB+pose): 90.4 Accuracy (pose): 67.9 |
| skeleton-based-action-recognition-on-j-hmdb | I3D + Potion | Accuracy (RGB+pose): 85.5 |
| skeleton-based-action-recognition-on-jhmdb-2d | PoTion | Average accuracy of 3 splits: 67.9 No. parameters: - |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.