vor 2 Monaten

CSTA: CNN-basierte räumlich-zeitliche Aufmerksamkeit für Videozusammenfassung

Jaewon Son; Jaehun Park; Kwangsu Kim

Abstract

Die Videozusammenfassung zielt darauf ab, eine prägnante Darstellung eines Videos zu erstellen, die dessen wesentliche Inhalte und Schlüsselmomente erfasst, während sie die Gesamtlänge reduziert. Obwohl mehrere Methoden Aufmerksamkeitsmechanismen einsetzen, um langfristige Abhängigkeiten zu verarbeiten, scheitern sie oft daran, die visuelle Bedeutung der einzelnen Frames zu erfassen. Um diese Einschränkung zu beheben, schlagen wir eine CNN-basierte räumlich-zeitliche Aufmerksamkeit (CSTA) Methode vor, die jedes Feature der Frames aus einem einzelnen Video stapelt, um bildähnliche Frame-Darstellungen zu bilden und 2D-CNN auf diese Frame-Features anwendet. Unsere Methodik basiert auf dem Verständnis von CNNs für inter- und intraframedynamiken sowie auf deren Fähigkeit, entscheidende Attribute in Videos durch das Erlernen absoluter Positionen innerhalb von Bildern zu identifizieren. Im Gegensatz zu früheren Arbeiten, die durch den Entwurf zusätzlicher Module zur Betonung der räumlichen Bedeutung die Effizienz beeinträchtigten, erfordert CSTA nur geringe Rechenressourcen, da es CNN als gleitendes Fenster verwendet. Ausführliche Experimente mit zwei Benchmark-Datensätzen (SumMe und TVSum) zeigen, dass unser vorgeschlagener Ansatz mit weniger MACs im Vergleich zu früheren Methoden Spitzenleistungen erzielt. Der Quellcode ist unter https://github.com/thswodnjs3/CSTA verfügbar.