vor 2 Monaten

Video-Gemeinsam-Modellierung basierend auf hierarchischem Transformer für Co-Zusammenfassung

Li Haopeng; Ke Qiuhong; Gong Mingming; Zhang Rui

Abstract

Die Videozusammenfassung zielt darauf ab, automatisch eine Zusammenfassung (Storyboards oder Video-Skims) eines Videos zu generieren, was die großmaßstäbliche Videorecherche und -durchsicht erleichtern kann. Die meisten existierenden Methoden führen die Videozusammenfassung für einzelne Videos durch, wobei sie die Korrelationen zwischen ähnlichen Videos vernachlässigen. Diese Korrelationen sind jedoch auch für das Verständnis und die Zusammenfassung von Videos informativ. Um diese Einschränkung zu beheben, schlagen wir ein Video Joint Modelling basierend auf einem hierarchischen Transformer (VJMHT) für Co-Zusammenfassungen vor, das die semantischen Abhängigkeiten zwischen Videos berücksichtigt. Insbesondere besteht VJMHT aus zwei Schichten von Transformers: Die erste Schicht extrahiert semantische Darstellungen aus einzelnen Schnitten ähnlicher Videos, während die zweite Schicht auf Shot-Ebene das Video Joint Modelling durchführt, um semantische Informationen über mehrere Videos hinweg zu aggregieren. Auf diese Weise werden vollständige hochstufige Muster über mehrere Videos hinweg explizit modelliert und gelernt, um die Zusammenfassung einzelner Videos zu verbessern. Darüber hinaus wird eine Transformer-basierte Rekonstruktion der Videodarstellung eingeführt, um die hochstufige Ähnlichkeit zwischen der Zusammenfassung und dem Originalvideo zu maximieren. Ausführliche Experimente wurden durchgeführt, um die Effektivität der vorgeschlagenen Module und den Vorteil des VJMHT in Bezug auf F-Maß und rangbasierende Bewertung zu überprüfen.