Tiefes Reinforcement Learning für die unüberwachte Videozusammenfassung mit Diversitäts-Repräsentativität-Belohnung

Die Videozusammenfassung zielt darauf ab, das durchsuchen großer Video-Datenmengen zu erleichtern, indem kurze, prägnante Zusammenfassungen erstellt werden, die vielfältig und repräsentativ für die ursprünglichen Videos sind. In dieser Arbeit formulieren wir die Videozusammenfassung als einen sequentiellen Entscheidungsprozess und entwickeln ein tiefes Zusammenfassungsnetzwerk (Deep Summarization Network, DSN), um Videos zusammenzufassen. Das DSN prognostiziert für jeden Videobildschirm eine Wahrscheinlichkeit, die angibt, wie wahrscheinlich es ist, dass ein Bildschirm ausgewählt wird. Anschließend werden Aktionen auf Grundlage der Wahrscheinlichkeitsverteilungen ausgeführt, um Frames auszuwählen und so Videozusammenfassungen zu bilden. Um unser DSN zu trainieren, schlagen wir ein von der Anfang bis zum Ende konzipiertes Framework vor, das auf Verstärkungslernen basiert. Hierbei entwerfen wir eine neuartige Belohnungsfunktion, die sowohl Vielfalt als auch Repräsentativität der generierten Zusammenfassungen berücksichtigt und keinerlei Labels oder Benutzerinteraktionen erfordert. Während des Trainings bewertet die Belohnungsfunktion die Vielfalt und Repräsentativität der generierten Zusammenfassungen, während das DSN durch das Lernen zur Erzeugung vielfältigerer und repräsentativerer Zusammenfassungen versucht, höhere Belohnungen zu erzielen. Da keine Labels erforderlich sind, kann unsere Methode vollständig unüberwacht sein. Ausführliche Experimente mit zwei Benchmark-Datensätzen zeigen nicht nur, dass unsere unüberwachte Methode andere state-of-the-art unüberwachte Methoden übertrifft, sondern sie ist auch vergleichbar mit oder sogar besser als die meisten veröffentlichten überwachten Ansätze.