Integrieren des zeitlichen Schemas für die unsupervisierte Videozusammenfassung über Aufmerksamkeitsmechanismen
In dieser Arbeit präsentieren wir ein neuartiges, unüberwachtes Verfahren namens SegSum, das zur Videozusammenfassung durch die Erzeugung von Videokürzungen (Video Skims) entwickelt wurde. Die meisten aktuellen Methoden trainieren einen Zusammenfassungsmodell, um jedem Einzelbild eine Relevanzbewertung zuzuweisen, die anschließend aggregiert wird, um Bewertungen für Videosegmente zu berechnen, die beispielsweise mittels des Kernel Temporal Segmentation (KTS)-Verfahrens generiert wurden. Dieser Ansatz beschränkt jedoch den Zugriff des Zusammenfassungsmodells auf entscheidende Informationen, die für die Erzeugung einer qualitativ hochwertigen Zusammenfassung notwendig sind – insbesondere räumlich-zeitliche Beziehungen innerhalb der Videosegmente. Unser vorgeschlagenes Verfahren integriert die aus KTS gewonnenen Segmentinformationen in den Lernprozess des Zusammenfassungsmodells basierend auf einer konzentrierten Aufmerksamkeitsarchitektur in tiefen Lernmodellen. In unseren Experimenten haben wir das Verfahren umfassend an mehreren Datensätzen und zahlreichen architektonischen Rahmenwerken für unüberwachte Videozusammenfassung evaluiert. Durch die Integration eines konzentrierten Aufmerksamkeitsmoduls erreichten wir Spitzen-F1-Scores auf etablierten Benchmarks, wobei wir 54 % auf dem SumMe-Datensatz und 62 % auf dem TVSum-Datensatz erzielten. Zudem zeigt SegSum selbst mit einem einfachen Regressor-Netzwerk wettbewerbsfähige Leistung und erzeugt Zusammenfassungen, die eng mit menschlichen Annotationen übereinstimmen.