Multi-Region Two-Stream R-CNN für die Aktionsdetektion

Wir schlagen ein mehrregionales Zweistrom-R-CNN-Modell für die Aktionsdetektion in realistischen Videos vor. Ausgehend von der framebasierten Aktionsdetektion basierend auf Faster R-CNN [1] leisten wir drei Beiträge: (1) Wir zeigen, dass ein Bewegungsregionen-Vorschlagsnetzwerk hochwertige Vorschläge erzeugt, die sich ergänzend zu denen eines Erscheinungsregionen-Vorschlagsnetzwerks verhalten; (2) Wir belegen, dass das Stapeln von optischen Flüssen über mehrere Frames die framebasierte Aktionsdetektion erheblich verbessert; und (3) Wir integrieren ein Mehrregionen-Schema in das Faster R-CNN-Modell, welches ergänzende Informationen zu Körperpartien bereitstellt. Anschließend verknüpfen wir die framebasierten Detektionsergebnisse mittels des Viterbi-Algorithmus und lokalisieren die Aktion zeitlich mittels der Methode des maximalen Teilarrays. Experimentelle Ergebnisse auf den Aktionsdetektionsdatensätzen UCF-Sports, J-HMDB und UCF101 zeigen, dass unser Ansatz sowohl in Bezug auf frame-mAP als auch auf video-mAP die bisherigen State-of-the-Art-Methoden mit signifikantem Abstand übertrifft.