Videos mit Aufmerksamkeit zusammenfassen

In dieser Arbeit schlagen wir eine neuartige Methode für überwachte, auf Schlüsselbildern basierende Videozusammenfassung vor, die ein konzeptionell einfaches und rechnerisch effizientes weiches, selbst-bezogenes Aufmerksamkeitsmechanismus (soft, self-attention mechanism) anwendet. Der aktuelle Stand der Technik nutzt bidirektionale rekurrente Netzwerke wie BiLSTM in Kombination mit Aufmerksamkeit. Diese Netzwerke sind im Vergleich zu vollständig verbundenen Netzwerken komplexer zu implementieren und rechnerisch anspruchsvoller. Daher schlagen wir ein einfaches Netzwerk für Videozusammenfassung vor, das auf einem selbst-bezogenen Aufmerksamkeitsmechanismus basiert und die gesamte Sequenz-zu-Sequenz-Transformation während des Trainings in einer einzigen Vorwärts- und Rückwärtsdurchlauf durchführt. Unsere Methode erzielt neue Referenzergebnisse (state of the art results) auf den beiden Benchmarks TvSum und SumMe, die in diesem Bereich häufig verwendet werden.