Kombination von globalem und lokalem Attention mit Positions-Codierung für die Videozusammenfassung

Diese Arbeit präsentiert eine neue Methode für überwachte Videozusammenfassung. Um die Nachteile bestehender RNN-basierter Zusammenfassungsarchitekturen zu überwinden, die mit der Modellierung von Abhängigkeiten über lange Zeiträume und der Fähigkeit zur Parallelisierung des Trainingsprozesses verbunden sind, basiert das entwickelte Modell auf der Verwendung von Selbst-Attention-Mechanismen zur Schätzung der Relevanz von Videoframes. Im Gegensatz zu früheren auf Aufmerksamkeit basierenden Ansätzen, die die Frame-Abhängigkeiten durch Beobachtung der gesamten Frame-Sequenz modellieren, kombiniert unsere Methode globale und lokale Multi-Head-Attention-Mechanismen, um unterschiedliche Modellierungsansätze für Frame-Abhängigkeiten auf verschiedenen Granularitätsebenen zu entdecken. Darüber hinaus integrieren die eingesetzten Attention-Mechanismen eine Komponente, die die zeitliche Position der Videoframes kodiert – ein entscheidender Aspekt bei der Erstellung einer Videozusammenfassung. Experimente an zwei Datensätzen (SumMe und TVSum) belegen die Wirksamkeit des vorgeschlagenen Modells im Vergleich zu bestehenden auf Aufmerksamkeit basierenden Methoden sowie seine Wettbewerbsfähigkeit gegenüber anderen state-of-the-art-Methoden der überwachten Zusammenfassung. Eine Ablationsstudie, die sich auf die zentralen vorgeschlagenen Komponenten konzentriert – nämlich die Kombination aus globalen und lokalen Multi-Head-Attention-Mechanismen sowie einer absoluten Positionskodierung – zeigt deren jeweiligen Beitrag zur Gesamtleistung der Zusammenfassung.