DSNet: Ein flexibles Detect-to-Summarize-Netzwerk für die Videozusammenfassung
In diesem Paper stellen wir einen Detect-to-Summarize-Netzwerk- (DSNet-) Rahmen für überwachte Videozusammenfassung vor. Unser DSNet umfasst sowohl anchor-basierte als auch anchor-freie Varianten. Die anchor-basierte Methode generiert zeitliche Interessensvorschläge, um die repräsentativen Inhalte von Videosequenzen zu bestimmen und zu lokalisieren, während die anchor-freie Methode vordefinierte zeitliche Vorschläge eliminiert und stattdessen direkt die Wichtigkeitswerte und Segmentpositionen vorhersagt. Im Gegensatz zu bestehenden Methoden der überwachten Videozusammenfassung, die die Zusammenfassung als Regressionsproblem formulieren, ohne zeitliche Konsistenz- und Integritätsbedingungen zu berücksichtigen, stellt unser Interessen-Erkennungs-Framework den ersten Ansatz dar, die zeitliche Konsistenz über die Formulierung der zeitlichen Interessen-Erkennung zu nutzen. Konkret ermöglicht die anchor-basierte Methode zunächst eine dichte Stichprobenziehung von zeitlichen Interessensvorschlägen mit mehrskaligen Abständen, um die Variationen in der Länge der Interessen zu erfassen, gefolgt von der Extraktion langreichweitiger zeitlicher Merkmale zur Regression der Interessenvorschlagspositionen und zur Vorhersage der Wichtigkeit. Besonders hervorzuheben ist, dass sowohl positive als auch negative Segmente zugewiesen werden, um die Korrektheit und Vollständigkeit der generierten Zusammenfassungen zu gewährleisten. In der anchor-freien Methode werden die Nachteile zeitlicher Vorschläge durch die direkte Vorhersage der Wichtigkeitswerte einzelner Videoframes und der Segmentpositionen abgemildert. Insbesondere lässt sich das Interessen-Erkennungs-Framework flexibel in bestehende, kommerziell erhältliche Methoden der überwachten Videozusammenfassung integrieren. Wir evaluieren die anchor-basierte und die anchor-freie Herangehensweise auf den Datensätzen SumMe und TVSum. Experimentelle Ergebnisse bestätigen eindeutig die Wirksamkeit beider Ansätze.