RGB-Stream ist ausreichend für die zeitliche Aktionsdetektion

Bislang state-of-the-art zeitliche Aktionsdetektoren basieren auf einem Zwei-Stream-Eingabesystem, das RGB-Bilder und optische Flüsse integriert. Obwohl die Kombination von RGB-Bildern und optischem Fluss die Leistung erheblich steigert, handelt es sich bei der optischen Flussdarstellung um eine handgestaltete Repräsentation, die nicht nur einen hohen Rechenaufwand erfordert, sondern auch methodisch unzufriedenstellend ist, da Zwei-Stream-Verfahren oft nicht end-to-end gemeinsam mit dem Fluss gelernt werden. In diesem Artikel argumentieren wir, dass optische Flüsse bei der hochgenauen zeitlichen Aktionsdetektion entbehrlich sind und dass Bildbereichs-Datenaugmentation (ILDA, image-level data augmentation) die entscheidende Lösung darstellt, um eine Leistungsverschlechterung zu vermeiden, wenn optische Flüsse weggelassen werden. Um die Wirksamkeit von ILDA zu evaluieren, entwerfen wir einen einfachen, aber effizienten Ein-Stage-Zeitaktionsdetektor namens DaoTAD, der auf einem einzigen RGB-Stream basiert. Unsere Ergebnisse zeigen, dass DaoTAD, wenn mit ILDA trainiert, eine vergleichbare Genauigkeit wie alle bestehenden state-of-the-art Zwei-Stream-Detektoren erreicht, gleichzeitig jedoch die Inferenzgeschwindigkeit der vorherigen Methoden deutlich übertreffen und eine beeindruckende Geschwindigkeit von 6668 fps auf einer GeForce GTX 1080 Ti erreicht. Der Quellcode ist unter \url{https://github.com/Media-Smart/vedatad} verfügbar.