vor 6 Monaten

Zusammenfassung

Die raumzeitliche Aktionlokalisierung erfordert die Integration zweier Informationsquellen in die Architektur: (1) zeitliche Informationen aus den vorherigen Bildern und (2) räumliche Informationen aus dem Schlüsselbild. Aktuelle state-of-the-art-Ansätze extrahieren diese Informationen in der Regel mit getrennten Netzwerken und verwenden eine zusätzliche Fusion-Mechanismus zur Erzeugung von Detektionen. In dieser Arbeit präsentieren wir YOWO, eine einheitliche CNN-Architektur für die Echtzeit-raumzeitliche Aktionlokalisierung in Videostreams. YOWO ist eine Ein-Stufe-Architektur mit zwei Zweigen, die zeitliche und räumliche Informationen gleichzeitig extrahieren und direkt aus Videoclips Bounding-Boxes sowie Aktionswahrscheinlichkeiten vorhersagen können. Da die gesamte Architektur einheitlich ist, kann sie end-to-end optimiert werden. Die YOWO-Architektur ist schnell und erreicht eine Geschwindigkeit von 34 Frames pro Sekunde bei 16-Bild-Eingaben und 62 Frames pro Sekunde bei 8-Bild-Eingaben – aktuell die schnellste state-of-the-art-Architektur für die raumzeitliche Aktionlokalisierung. Bemerkenswert ist, dass YOWO die bisherigen state-of-the-art-Ergebnisse auf den Datensätzen J-HMDB-21 und UCF101-24 mit einer beeindruckenden Verbesserung von jeweils ~3 % und ~12 % übertrifft. Darüber hinaus ist YOWO die erste und einzige Ein-Stufe-Architektur, die auf dem AVA-Datensatz konkurrenzfähige Ergebnisse liefert. Wir stellen unseren Code und vortrainierte Modelle öffentlich zur Verfügung.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Objektverfolgung

Faltungsneuronales Netzwerk

Okan Köpüklü Xiangyu Wei Gerhard Rigoll

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Objektverfolgung

Faltungsneuronales Netzwerk

Okan Köpüklü Xiangyu Wei Gerhard Rigoll

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

You Only Watch Once: Eine einheitliche CNN-Architektur für die Echtzeit-Spatio-Temporal-Aktionlokalisierung

Okan Köpüklü Xiangyu Wei Gerhard Rigoll

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

You Only Watch Once: Eine einheitliche CNN-Architektur für die Echtzeit-Spatio-Temporal-Aktionlokalisierung

Okan Köpüklü Xiangyu Wei Gerhard Rigoll

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

You Only Watch Once: Eine einheitliche CNN-Architektur für die Echtzeit-Spatio-Temporal-Aktionlokalisierung

Okan Köpüklü Xiangyu Wei Gerhard Rigoll

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters