HyperAIHyperAI

Command Palette

Search for a command to run...

CSTA: CNN-basierte räumlich-zeitliche Aufmerksamkeit für Videozusammenfassung

Jaewon Son Jaehun Park Kwangsu Kim*

Zusammenfassung

Die Videozusammenfassung zielt darauf ab, eine prägnante Darstellung eines Videos zu erstellen, die dessen wesentliche Inhalte und Schlüsselmomente erfasst, während sie die Gesamtlänge reduziert. Obwohl mehrere Methoden Aufmerksamkeitsmechanismen einsetzen, um langfristige Abhängigkeiten zu verarbeiten, scheitern sie oft daran, die visuelle Bedeutung der einzelnen Frames zu erfassen. Um diese Einschränkung zu beheben, schlagen wir eine CNN-basierte räumlich-zeitliche Aufmerksamkeit (CSTA) Methode vor, die jedes Feature der Frames aus einem einzelnen Video stapelt, um bildähnliche Frame-Darstellungen zu bilden und 2D-CNN auf diese Frame-Features anwendet. Unsere Methodik basiert auf dem Verständnis von CNNs für inter- und intraframedynamiken sowie auf deren Fähigkeit, entscheidende Attribute in Videos durch das Erlernen absoluter Positionen innerhalb von Bildern zu identifizieren. Im Gegensatz zu früheren Arbeiten, die durch den Entwurf zusätzlicher Module zur Betonung der räumlichen Bedeutung die Effizienz beeinträchtigten, erfordert CSTA nur geringe Rechenressourcen, da es CNN als gleitendes Fenster verwendet. Ausführliche Experimente mit zwei Benchmark-Datensätzen (SumMe und TVSum) zeigen, dass unser vorgeschlagener Ansatz mit weniger MACs im Vergleich zu früheren Methoden Spitzenleistungen erzielt. Der Quellcode ist unter https://github.com/thswodnjs3/CSTA verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CSTA: CNN-basierte räumlich-zeitliche Aufmerksamkeit für Videozusammenfassung | Paper | HyperAI