HyperAIHyperAI
vor 11 Tagen

Einführung selbstüberwachten Lernens in die unüberwachte Video-Zusammenfassung durch einen Wiederherstellungsscore.

{Parvaneh Saeedi, Mehryar Abbasi}
Abstract

In diesem Artikel präsentieren wir einen neuen Ansatz zur Erstellung von Videozusammenfassungen auf unsupervisierter Weise. Unser Verfahren besteht darin, ein Transformer-Encoder-Modell so zu trainieren, dass es fehlende Frames in einem Video selbstsupervisiert mithilfe teilweise maskierter Videos als Eingabe rekonstruiert. Anschließend führen wir einen Algorithmus ein, der das oben trainierte Encoder-Modell nutzt, um für jeden Frame eine Relevanzscore zu berechnen. Diese Frame-Relevanzscores dienen anschließend zur Erstellung der Videozusammenfassung. Wir zeigen, dass die Rekonstruktionsverlustfunktion des Modells für ein maskiertes Video mit der Repräsentativität der verbleibenden Frames korreliert. Die Wirksamkeit unseres Ansatzes wird an zwei Standard-Datensätzen, TVSum und SumMe, validiert. Wir demonstrieren, dass er state-of-the-art (SOTA)-Methoden übertrifft. Zudem ist unser Ansatz während des Trainings stabiler im Vergleich zu SOTA-Techniken, die auf generativen adversarialen Netzwerken basieren. Der Quellcode ist öffentlich verfügbar 1.

Einführung selbstüberwachten Lernens in die unüberwachte Video-Zusammenfassung durch einen Wiederherstellungsscore. | Neueste Forschungsarbeiten | HyperAI