Progressive Video Zusammenfassung durch multimodales selbstüberwachtes Lernen

Moderne Videozusammenfassungsmethoden basieren auf tiefen neuronalen Netzen, die eine große Menge an annotierten Daten für das Training erfordern. Bestehende Datensätze für Videozusammenfassungen sind jedoch klein und führen leicht zu Überanpassung (over-fitting) der tiefen Modelle. Angesichts der Tatsache, dass die Annotation von großen Datensätzen zeitaufwendig ist, schlagen wir ein multimodales selbstüberwachtes Lernframework vor, um semantische Repräsentationen von Videos zu erhalten, was den Aufgabenbereich der Videozusammenfassung vorteilhaft beeinflusst. Insbesondere wird das selbstüberwachte Lernen durch die Untersuchung der semantischen Konsistenz zwischen Videos und Text in grobkörniger und feinkörniger Form sowie durch die Wiederherstellung maskierter Frames in den Videos durchgeführt. Das multimodale Framework wird auf einem neu gesammelten Datensatz trainiert, der aus Videotextpaaren besteht. Darüber hinaus stellen wir eine progressive Videozusammenfassungsmethode vor, bei der wichtige Inhalte in einem Video schrittweise identifiziert werden, um bessere Zusammenfassungen zu generieren. Umfangreiche Experimente haben die Effektivität und Überlegenheit unserer Methode in Rangkorrelationskoeffizienten und F-Wert gezeigt.