HyperAIHyperAI

Command Palette

Search for a command to run...

RGB-Stream ist ausreichend für die zeitliche Aktionsdetektion

Chenhao Wang Hongxiang Cai Yuxin Zou Yichao Xiong

Zusammenfassung

Bislang state-of-the-art zeitliche Aktionsdetektoren basieren auf einem Zwei-Stream-Eingabesystem, das RGB-Bilder und optische Flüsse integriert. Obwohl die Kombination von RGB-Bildern und optischem Fluss die Leistung erheblich steigert, handelt es sich bei der optischen Flussdarstellung um eine handgestaltete Repräsentation, die nicht nur einen hohen Rechenaufwand erfordert, sondern auch methodisch unzufriedenstellend ist, da Zwei-Stream-Verfahren oft nicht end-to-end gemeinsam mit dem Fluss gelernt werden. In diesem Artikel argumentieren wir, dass optische Flüsse bei der hochgenauen zeitlichen Aktionsdetektion entbehrlich sind und dass Bildbereichs-Datenaugmentation (ILDA, image-level data augmentation) die entscheidende Lösung darstellt, um eine Leistungsverschlechterung zu vermeiden, wenn optische Flüsse weggelassen werden. Um die Wirksamkeit von ILDA zu evaluieren, entwerfen wir einen einfachen, aber effizienten Ein-Stage-Zeitaktionsdetektor namens DaoTAD, der auf einem einzigen RGB-Stream basiert. Unsere Ergebnisse zeigen, dass DaoTAD, wenn mit ILDA trainiert, eine vergleichbare Genauigkeit wie alle bestehenden state-of-the-art Zwei-Stream-Detektoren erreicht, gleichzeitig jedoch die Inferenzgeschwindigkeit der vorherigen Methoden deutlich übertreffen und eine beeindruckende Geschwindigkeit von 6668 fps auf einer GeForce GTX 1080 Ti erreicht. Der Quellcode ist unter \url{https://github.com/Media-Smart/vedatad} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp