HyperAI

Abstract

In dieser Arbeit präsentieren wir ein neuartiges, unüberwachtes Verfahren namens SegSum, das zur Videozusammenfassung durch die Erzeugung von Videokürzungen (Video Skims) entwickelt wurde. Die meisten aktuellen Methoden trainieren einen Zusammenfassungsmodell, um jedem Einzelbild eine Relevanzbewertung zuzuweisen, die anschließend aggregiert wird, um Bewertungen für Videosegmente zu berechnen, die beispielsweise mittels des Kernel Temporal Segmentation (KTS)-Verfahrens generiert wurden. Dieser Ansatz beschränkt jedoch den Zugriff des Zusammenfassungsmodells auf entscheidende Informationen, die für die Erzeugung einer qualitativ hochwertigen Zusammenfassung notwendig sind – insbesondere räumlich-zeitliche Beziehungen innerhalb der Videosegmente. Unser vorgeschlagenes Verfahren integriert die aus KTS gewonnenen Segmentinformationen in den Lernprozess des Zusammenfassungsmodells basierend auf einer konzentrierten Aufmerksamkeitsarchitektur in tiefen Lernmodellen. In unseren Experimenten haben wir das Verfahren umfassend an mehreren Datensätzen und zahlreichen architektonischen Rahmenwerken für unüberwachte Videozusammenfassung evaluiert. Durch die Integration eines konzentrierten Aufmerksamkeitsmoduls erreichten wir Spitzen-F1-Scores auf etablierten Benchmarks, wobei wir 54 % auf dem SumMe-Datensatz und 62 % auf dem TVSum-Datensatz erzielten. Zudem zeigt SegSum selbst mit einem einfachen Regressor-Netzwerk wettbewerbsfähige Leistung und erzeugt Zusammenfassungen, die eng mit menschlichen Annotationen übereinstimmen.

Benchmark	Methodik	Metriken
unsupervised-video-summarization-on-summe	SegSum	F1-score: 54 Parameters (M): 5.25
unsupervised-video-summarization-on-tvsum	SegSum	F1-score: 62 Parameters (M): 5.25

Benchmark

Methodik

Metriken

unsupervised-video-summarization-on-summe

SegSum

F1-score: 54

Parameters (M): 5.25

unsupervised-video-summarization-on-tvsum

SegSum

F1-score: 62

Parameters (M): 5.25

Integrieren des zeitlichen Schemas für die unsupervisierte Videozusammenfassung über Aufmerksamkeitsmechanismen

{Viet H. Vo Bang Q. Vo}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Integrieren des zeitlichen Schemas für die unsupervisierte Videozusammenfassung über Aufmerksamkeitsmechanismen

{Viet H. Vo Bang Q. Vo}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters