Auffinden von Action-Tubes mit einem Sparse-to-Dense-Framework

Die Aufgabe der räumlich-zeitlichen Aktionsdetektion hat bei Forschern zunehmend an Aufmerksamkeit gewonnen. Bestehende dominierende Ansätze lösen dieses Problem, indem sie auf kurzfristige Informationen und dichte, sequenzielle Detektionen auf einzelnen Frames oder Clips basieren. Trotz ihrer Wirksamkeit nutzen diese Methoden langfristige Informationen unzureichend und sind anfällig für ineffiziente Ausführungszeiten. In diesem Artikel stellen wir erstmals einen effizienten Rahmen vor, der Aktions-Tube-Vorschläge aus Videostreams mit einer einzigen Vorwärtsdurchlauf in einer sparse-to-dense-Methode generiert. Dieser Rahmen weist zwei zentrale Eigenschaften auf: (1) In unserem räumlich-zeitlichen Netzwerk werden sowohl langfristige als auch kurzfristige abgetastete Informationen explizit genutzt, (2) Es wird ein neues dynamisches Merkmalsabtastungsmodul (DTS) entworfen, das die Tube-Ausgabe effektiv approximiert, während das System handhabbar bleibt. Wir bewerten die Wirksamkeit unseres Modells an den Benchmark-Datensätzen UCF101-24, JHMDB-21 und UCFSports und erzielen vielversprechende Ergebnisse, die mit den besten bisherigen Methoden konkurrieren. Die vorgeschlagene sparse-to-dense-Strategie macht unseren Rahmen etwa 7,6-mal effizienter als die nächstbeste Konkurrenz.