HyperAIHyperAI
vor 2 Monaten

Versteckte Zwei-Ströme-Faltungsnetze für die Aktionserkennung

Yi Zhu; Zhenzhong Lan; Shawn Newsam; Alexander G. Hauptmann
Versteckte Zwei-Ströme-Faltungsnetze für die Aktionserkennung
Abstract

Die Analyse von Videos mit menschlichen Aktionen beinhaltet das Verstehen der zeitlichen Beziehungen zwischen den Videobildern. Aktuelle Ansätze zur Aktionserkennung basieren auf traditionellen Methoden zur optischen Flussberechnung, um Bewegungsinformationen für CNNs (Convolutional Neural Networks) vorzuberechnen. Ein solcher zweistufiger Ansatz ist rechenintensiv, speicheraufwendig und nicht end-to-end trainierbar. In dieser Arbeit stellen wir eine neuartige CNN-Architektur vor, die die Bewegungsinformationen zwischen benachbarten Bildern implizit erfasst. Wir nennen unseren Ansatz verborgene Zweiströme-CNNs, da er nur rohe Videobilder als Eingabe verwendet und Klassen von Aktionen direkt vorhersagt, ohne den optischen Fluss explizit zu berechnen. Unser end-to-end Ansatz ist 10-mal schneller als sein zweistufiges Baseline-Modell. Experimentelle Ergebnisse auf vier anspruchsvollen Datensätzen zur Aktionserkennung – UCF101, HMDB51, THUMOS14 und ActivityNet v1.2 – zeigen, dass unser Ansatz die bisher besten Echtzeitansätze deutlich übertrifft.