HyperAIHyperAI
vor 16 Tagen

You Only Watch Once: Eine einheitliche CNN-Architektur für die Echtzeit-Spatio-Temporal-Aktionlokalisierung

Okan Köpüklü, Xiangyu Wei, Gerhard Rigoll
You Only Watch Once: Eine einheitliche CNN-Architektur für die Echtzeit-Spatio-Temporal-Aktionlokalisierung
Abstract

Die raumzeitliche Aktionlokalisierung erfordert die Integration zweier Informationsquellen in die Architektur: (1) zeitliche Informationen aus den vorherigen Bildern und (2) räumliche Informationen aus dem Schlüsselbild. Aktuelle state-of-the-art-Ansätze extrahieren diese Informationen in der Regel mit getrennten Netzwerken und verwenden eine zusätzliche Fusion-Mechanismus zur Erzeugung von Detektionen. In dieser Arbeit präsentieren wir YOWO, eine einheitliche CNN-Architektur für die Echtzeit-raumzeitliche Aktionlokalisierung in Videostreams. YOWO ist eine Ein-Stufe-Architektur mit zwei Zweigen, die zeitliche und räumliche Informationen gleichzeitig extrahieren und direkt aus Videoclips Bounding-Boxes sowie Aktionswahrscheinlichkeiten vorhersagen können. Da die gesamte Architektur einheitlich ist, kann sie end-to-end optimiert werden. Die YOWO-Architektur ist schnell und erreicht eine Geschwindigkeit von 34 Frames pro Sekunde bei 16-Bild-Eingaben und 62 Frames pro Sekunde bei 8-Bild-Eingaben – aktuell die schnellste state-of-the-art-Architektur für die raumzeitliche Aktionlokalisierung. Bemerkenswert ist, dass YOWO die bisherigen state-of-the-art-Ergebnisse auf den Datensätzen J-HMDB-21 und UCF101-24 mit einer beeindruckenden Verbesserung von jeweils ~3 % und ~12 % übertrifft. Darüber hinaus ist YOWO die erste und einzige Ein-Stufe-Architektur, die auf dem AVA-Datensatz konkurrenzfähige Ergebnisse liefert. Wir stellen unseren Code und vortrainierte Modelle öffentlich zur Verfügung.