HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Einführung selbstüberwachten Lernens in die unüberwachte Video-Zusammenfassung durch einen Wiederherstellungsscore.

{Parvaneh Saeedi Mehryar Abbasi}

Abstract

In diesem Artikel präsentieren wir einen neuen Ansatz zur Erstellung von Videozusammenfassungen auf unsupervisierter Weise. Unser Verfahren besteht darin, ein Transformer-Encoder-Modell so zu trainieren, dass es fehlende Frames in einem Video selbstsupervisiert mithilfe teilweise maskierter Videos als Eingabe rekonstruiert. Anschließend führen wir einen Algorithmus ein, der das oben trainierte Encoder-Modell nutzt, um für jeden Frame eine Relevanzscore zu berechnen. Diese Frame-Relevanzscores dienen anschließend zur Erstellung der Videozusammenfassung. Wir zeigen, dass die Rekonstruktionsverlustfunktion des Modells für ein maskiertes Video mit der Repräsentativität der verbleibenden Frames korreliert. Die Wirksamkeit unseres Ansatzes wird an zwei Standard-Datensätzen, TVSum und SumMe, validiert. Wir demonstrieren, dass er state-of-the-art (SOTA)-Methoden übertrifft. Zudem ist unser Ansatz während des Trainings stabiler im Vergleich zu SOTA-Techniken, die auf generativen adversarialen Netzwerken basieren. Der Quellcode ist öffentlich verfügbar 1.

Benchmarks

BenchmarkMethodikMetriken
unsupervised-video-summarization-on-summeRS-SUM
F1-score: 52.0
unsupervised-video-summarization-on-tvsumRS-SUM
F1-score: 61.4
Kendall's Tau: 0.08
Spearman's Rho: 0.106

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp