Multi-Region Two-Stream R-CNN für die Aktionsdetektion
{Cordelia Schmid Xiaojiang Peng}

Abstract
Wir schlagen ein mehrregionales Zweistrom-R-CNN-Modell für die Aktionsdetektion in realistischen Videos vor. Ausgehend von der framebasierten Aktionsdetektion basierend auf Faster R-CNN [1] leisten wir drei Beiträge: (1) Wir zeigen, dass ein Bewegungsregionen-Vorschlagsnetzwerk hochwertige Vorschläge erzeugt, die sich ergänzend zu denen eines Erscheinungsregionen-Vorschlagsnetzwerks verhalten; (2) Wir belegen, dass das Stapeln von optischen Flüssen über mehrere Frames die framebasierte Aktionsdetektion erheblich verbessert; und (3) Wir integrieren ein Mehrregionen-Schema in das Faster R-CNN-Modell, welches ergänzende Informationen zu Körperpartien bereitstellt. Anschließend verknüpfen wir die framebasierten Detektionsergebnisse mittels des Viterbi-Algorithmus und lokalisieren die Aktion zeitlich mittels der Methode des maximalen Teilarrays. Experimentelle Ergebnisse auf den Aktionsdetektionsdatensätzen UCF-Sports, J-HMDB und UCF101 zeigen, dass unser Ansatz sowohl in Bezug auf frame-mAP als auch auf video-mAP die bisherigen State-of-the-Art-Methoden mit signifikantem Abstand übertrifft.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| action-detection-on-j-hmdb | MR-TS R-CNN | Frame-mAP 0.5: 58.5 Video-mAP 0.2: 74.3 Video-mAP 0.5: 73.09 |
| action-detection-on-j-hmdb | TS R-CNN | Frame-mAP 0.5: 56.9 Video-mAP 0.2: 71.1 Video-mAP 0.5: 70.6 |
| action-detection-on-ucf-sports | MR-TS R-CNN | Frame-mAP 0.5: 84.52 Video-mAP 0.2: 94.83 Video-mAP 0.5: 94.67 |
| action-detection-on-ucf-sports | TS R-CNN | Frame-mAP 0.5: 82.30 Video-mAP 0.2: 94.82 Video-mAP 0.5: 94.82 |
| action-detection-on-ucf101-24 | MR-TS R-CNN | Frame-mAP 0.5: 39.63 |
| action-detection-on-ucf101-24 | TS R-CNN | Frame-mAP 0.5: 39.94 |
| action-recognition-in-videos-on-ucf101 | MR Two-Sream R-CNN | 3-fold Accuracy: 91.1 |
| skeleton-based-action-recognition-on-j-hmdb | MR Two-Sream R-CNN | Accuracy (RGB+pose): 71.1 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.