AC-SUM-GAN: Verbindung von Actor-Critic- und Generative Adversarial Networks für die überwachungsfreie Videozusammenfassung
Diese Arbeit stellt eine neue Methode für die unsupervisierte Videozusammenfassung vor. Der vorgeschlagene Architekturansatz integriert ein Actor-Critic-Modell in ein Generatives adversariales Netzwerk (GAN) und formuliert die Auswahl wichtiger Videofragmente – jener Segmente, die zur Erstellung der Zusammenfassung verwendet werden – als Aufgabe der Sequenzgenerierung. Der Actor und der Critic beteiligen sich an einem Spiel, das schrittweise zur Selektion der Schlüssel-Videoabschnitte führt, wobei ihre Entscheidungen in jedem Spielzug Belohnungen vom Discriminator erhalten. Der entworfene Trainingsworkflow ermöglicht es dem Actor und dem Critic, einen Raum möglicher Aktionen zu erkunden und automatisch eine Politik für die Auswahl der Schlüssel-Videoabschnitte zu erlernen. Darüber hinaus ermöglicht der eingeführte Kriterium zur Auswahl des besten Modells nach Abschluss des Trainings die automatische Bestimmung geeigneter Werte für Parameter des Trainingsprozesses, die nicht aus den Daten gelernt werden (wie beispielsweise der Regularisierungsparameter σ). Experimentelle Evaluationen auf zwei Standard-Datensätzen (SumMe und TVSum) zeigen, dass das vorgeschlagene AC-SUM-GAN-Modell konsistent gute Ergebnisse erzielt und im Vergleich zu anderen unsupervisierten Methoden state-of-the-art (SoA)-Leistungen erbringt, die zudem mit denen überwachter Methoden konkurrenzfähig sind.