HyperAIHyperAI

Command Palette

Search for a command to run...

You Only Watch Once: Eine einheitliche CNN-Architektur für die Echtzeit-Spatio-Temporal-Aktionlokalisierung

Okan Köpüklü Xiangyu Wei Gerhard Rigoll

Zusammenfassung

Die raumzeitliche Aktionlokalisierung erfordert die Integration zweier Informationsquellen in die Architektur: (1) zeitliche Informationen aus den vorherigen Bildern und (2) räumliche Informationen aus dem Schlüsselbild. Aktuelle state-of-the-art-Ansätze extrahieren diese Informationen in der Regel mit getrennten Netzwerken und verwenden eine zusätzliche Fusion-Mechanismus zur Erzeugung von Detektionen. In dieser Arbeit präsentieren wir YOWO, eine einheitliche CNN-Architektur für die Echtzeit-raumzeitliche Aktionlokalisierung in Videostreams. YOWO ist eine Ein-Stufe-Architektur mit zwei Zweigen, die zeitliche und räumliche Informationen gleichzeitig extrahieren und direkt aus Videoclips Bounding-Boxes sowie Aktionswahrscheinlichkeiten vorhersagen können. Da die gesamte Architektur einheitlich ist, kann sie end-to-end optimiert werden. Die YOWO-Architektur ist schnell und erreicht eine Geschwindigkeit von 34 Frames pro Sekunde bei 16-Bild-Eingaben und 62 Frames pro Sekunde bei 8-Bild-Eingaben – aktuell die schnellste state-of-the-art-Architektur für die raumzeitliche Aktionlokalisierung. Bemerkenswert ist, dass YOWO die bisherigen state-of-the-art-Ergebnisse auf den Datensätzen J-HMDB-21 und UCF101-24 mit einer beeindruckenden Verbesserung von jeweils ~3 % und ~12 % übertrifft. Darüber hinaus ist YOWO die erste und einzige Ein-Stufe-Architektur, die auf dem AVA-Datensatz konkurrenzfähige Ergebnisse liefert. Wir stellen unseren Code und vortrainierte Modelle öffentlich zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
You Only Watch Once: Eine einheitliche CNN-Architektur für die Echtzeit-Spatio-Temporal-Aktionlokalisierung | Paper | HyperAI