Unüberwachte Videozusammenfassung durch auf Aufmerksamkeit gesteuertes adversariales Lernen
Diese Arbeit präsentiert einen neuen Ansatz zur Videozusammenfassung, der eine Aufmerksamkeitsmechanik integriert, um die bedeutenden Teile eines Videos zu identifizieren, und unsupervisiert über generative adversarische Lernverfahren trainiert wird. Ausgehend vom SUM-GAN-Modell entwickeln wir zunächst eine verbesserte Version (SUM-GAN-sl), die eine deutlich reduzierte Anzahl an zu lernenden Parametern aufweist, eine inkrementelle Trainingsstrategie für die einzelnen Modulkomponenten ermöglicht und eine schrittweise, auf Labels basierende Strategie zur Aktualisierung des adversarialen Teils anwendet. Anschließend integrieren wir die Aufmerksamkeitsmechanik in SUM-GAN-sl auf zwei Arten: (i) durch Einbindung einer Aufmerksamkeitsschicht innerhalb des variationalen Autoencoders (VAE) der Architektur (SUM-GAN-VAAE), und (ii) durch Ersetzen des VAE durch einen deterministischen Aufmerksamkeitsautoencoder (SUM-GAN-AAE). Experimentelle Evaluierungen auf zwei Datensätzen (SumMe und TVSum) belegen den Beitrag des Aufmerksamkeitsautoencoders zur beschleunigten und stabileren Trainingsdynamik des Modells und zeigen eine signifikante Leistungssteigerung gegenüber dem ursprünglichen Modell. Zudem demonstriert SUM-GAN-AAE seine Wettbewerbsfähigkeit gegenüber dem Stand der Technik.