HyperAIHyperAI
vor 11 Tagen

Videozusammenfassung mithilfe konzentrierter Aufmerksamkeit unter Berücksichtigung der Einzigartigkeit und Vielfalt der Videobilder

{Ioannis Patras, Vasileios Mezaris, Georgios Balaouras, Evlampios Apostolidis}
Videozusammenfassung mithilfe konzentrierter Aufmerksamkeit unter Berücksichtigung der Einzigartigkeit und Vielfalt der Videobilder
Abstract

In dieser Arbeit beschreiben wir eine neue Methode für die unüberwachte Videozusammenfassung. Um die Einschränkungen bestehender unüberwachter Ansätze zur Videozusammenfassung zu überwinden – insbesondere die instabile Ausbildung von Generator-Discriminator-Architekturen, die Verwendung von RNNs zur Modellierung langfristiger Abhängigkeiten zwischen Videoframes sowie die Schwierigkeit, das Training von RNN-basierten Netzwerken zu parallelisieren – beruht die entwickelte Methode ausschließlich auf der Nutzung eines Self-Attention-Mechanismus zur Schätzung der Relevanz von Videoframes. Anstatt die Frame-Abhängigkeiten lediglich auf Basis einer globalen Aufmerksamkeit zu modellieren, integriert unsere Methode einen konzentrierten Aufmerksamkeitsmechanismus, der in der Lage ist, sich auf nicht überlappende Blöcke entlang der Hauptdiagonale der Aufmerksamkeitsmatrix zu konzentrieren, und die vorhandenen Informationen durch die Extraktion und Nutzung von Wissen über die Einzigartigkeit und Vielfalt der zugehörigen Frames zu bereichern. Auf diese Weise ermöglicht unsere Methode eine präzisere Schätzung der Bedeutung verschiedener Videobereiche und reduziert drastisch die Anzahl der lernbaren Parameter. Experimentelle Bewertungen anhand zweier Benchmark-Datensätze (SumMe und TVSum) zeigen die Wettbewerbsfähigkeit des vorgeschlagenen Ansatzes gegenüber anderen state-of-the-art-Methoden der unüberwachten Zusammenfassung und belegen seine Fähigkeit, Zusammenfassungen zu erzeugen, die den menschlichen Präferenzen sehr nahekommen. Eine Ablationsstudie, die sich auf die eingeführten Komponenten konzentriert – nämlich die Verwendung des konzentrierten Aufmerksamkeitsmechanismus in Kombination mit auf Aufmerksamkeit basierenden Schätzungen der Einzigartigkeit und Vielfalt der Frames – zeigt deren jeweiligen Beitrag zur Gesamtleistung der Zusammenfassung.

Videozusammenfassung mithilfe konzentrierter Aufmerksamkeit unter Berücksichtigung der Einzigartigkeit und Vielfalt der Videobilder | Neueste Forschungsarbeiten | HyperAI