HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Integrieren des zeitlichen Schemas für die unsupervisierte Videozusammenfassung über Aufmerksamkeitsmechanismen

{Viet H. Vo Bang Q. Vo}

Abstract

In dieser Arbeit präsentieren wir ein neuartiges, unüberwachtes Verfahren namens SegSum, das zur Videozusammenfassung durch die Erzeugung von Videokürzungen (Video Skims) entwickelt wurde. Die meisten aktuellen Methoden trainieren einen Zusammenfassungsmodell, um jedem Einzelbild eine Relevanzbewertung zuzuweisen, die anschließend aggregiert wird, um Bewertungen für Videosegmente zu berechnen, die beispielsweise mittels des Kernel Temporal Segmentation (KTS)-Verfahrens generiert wurden. Dieser Ansatz beschränkt jedoch den Zugriff des Zusammenfassungsmodells auf entscheidende Informationen, die für die Erzeugung einer qualitativ hochwertigen Zusammenfassung notwendig sind – insbesondere räumlich-zeitliche Beziehungen innerhalb der Videosegmente. Unser vorgeschlagenes Verfahren integriert die aus KTS gewonnenen Segmentinformationen in den Lernprozess des Zusammenfassungsmodells basierend auf einer konzentrierten Aufmerksamkeitsarchitektur in tiefen Lernmodellen. In unseren Experimenten haben wir das Verfahren umfassend an mehreren Datensätzen und zahlreichen architektonischen Rahmenwerken für unüberwachte Videozusammenfassung evaluiert. Durch die Integration eines konzentrierten Aufmerksamkeitsmoduls erreichten wir Spitzen-F1-Scores auf etablierten Benchmarks, wobei wir 54 % auf dem SumMe-Datensatz und 62 % auf dem TVSum-Datensatz erzielten. Zudem zeigt SegSum selbst mit einem einfachen Regressor-Netzwerk wettbewerbsfähige Leistung und erzeugt Zusammenfassungen, die eng mit menschlichen Annotationen übereinstimmen.

Benchmarks

BenchmarkMethodikMetriken
unsupervised-video-summarization-on-summeSegSum
F1-score: 54
Parameters (M): 5.25
unsupervised-video-summarization-on-tvsumSegSum
F1-score: 62
Parameters (M): 5.25

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Integrieren des zeitlichen Schemas für die unsupervisierte Videozusammenfassung über Aufmerksamkeitsmechanismen | Forschungsarbeiten | HyperAI