Command Palette
Search for a command to run...
Videos mit Aufmerksamkeit zusammenfassen
Videos mit Aufmerksamkeit zusammenfassen
Jiri Fajtl Hajar Sadeghi Sokeh Vasileios Argyriou Dorothy Monekosso Paolo Remagnino
Zusammenfassung
In dieser Arbeit schlagen wir eine neuartige Methode für überwachte, auf Schlüsselbildern basierende Videozusammenfassung vor, die ein konzeptionell einfaches und rechnerisch effizientes weiches, selbst-bezogenes Aufmerksamkeitsmechanismus (soft, self-attention mechanism) anwendet. Der aktuelle Stand der Technik nutzt bidirektionale rekurrente Netzwerke wie BiLSTM in Kombination mit Aufmerksamkeit. Diese Netzwerke sind im Vergleich zu vollständig verbundenen Netzwerken komplexer zu implementieren und rechnerisch anspruchsvoller. Daher schlagen wir ein einfaches Netzwerk für Videozusammenfassung vor, das auf einem selbst-bezogenen Aufmerksamkeitsmechanismus basiert und die gesamte Sequenz-zu-Sequenz-Transformation während des Trainings in einer einzigen Vorwärts- und Rückwärtsdurchlauf durchführt. Unsere Methode erzielt neue Referenzergebnisse (state of the art results) auf den beiden Benchmarks TvSum und SumMe, die in diesem Bereich häufig verwendet werden.