HyperAIHyperAI

Command Palette

Search for a command to run...

Versteckte Zwei-Ströme-Faltungsnetze für die Aktionserkennung

Yi Zhu Zhenzhong Lan Shawn Newsam Alexander Hauptmann

Zusammenfassung

Die Analyse von Videos mit menschlichen Aktionen beinhaltet das Verstehen der zeitlichen Beziehungen zwischen den Videobildern. Aktuelle Ansätze zur Aktionserkennung basieren auf traditionellen Methoden zur optischen Flussberechnung, um Bewegungsinformationen für CNNs (Convolutional Neural Networks) vorzuberechnen. Ein solcher zweistufiger Ansatz ist rechenintensiv, speicheraufwendig und nicht end-to-end trainierbar. In dieser Arbeit stellen wir eine neuartige CNN-Architektur vor, die die Bewegungsinformationen zwischen benachbarten Bildern implizit erfasst. Wir nennen unseren Ansatz verborgene Zweiströme-CNNs, da er nur rohe Videobilder als Eingabe verwendet und Klassen von Aktionen direkt vorhersagt, ohne den optischen Fluss explizit zu berechnen. Unser end-to-end Ansatz ist 10-mal schneller als sein zweistufiges Baseline-Modell. Experimentelle Ergebnisse auf vier anspruchsvollen Datensätzen zur Aktionserkennung – UCF101, HMDB51, THUMOS14 und ActivityNet v1.2 – zeigen, dass unser Ansatz die bisher besten Echtzeitansätze deutlich übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp