HyperAIHyperAI

Command Palette

Search for a command to run...

Progressive Video Zusammenfassung durch multimodales selbstüberwachtes Lernen

Haopeng Li Qiuhong Ke Mingming Gong Tom Drummond

Zusammenfassung

Moderne Videozusammenfassungsmethoden basieren auf tiefen neuronalen Netzen, die eine große Menge an annotierten Daten für das Training erfordern. Bestehende Datensätze für Videozusammenfassungen sind jedoch klein und führen leicht zu Überanpassung (over-fitting) der tiefen Modelle. Angesichts der Tatsache, dass die Annotation von großen Datensätzen zeitaufwendig ist, schlagen wir ein multimodales selbstüberwachtes Lernframework vor, um semantische Repräsentationen von Videos zu erhalten, was den Aufgabenbereich der Videozusammenfassung vorteilhaft beeinflusst. Insbesondere wird das selbstüberwachte Lernen durch die Untersuchung der semantischen Konsistenz zwischen Videos und Text in grobkörniger und feinkörniger Form sowie durch die Wiederherstellung maskierter Frames in den Videos durchgeführt. Das multimodale Framework wird auf einem neu gesammelten Datensatz trainiert, der aus Videotextpaaren besteht. Darüber hinaus stellen wir eine progressive Videozusammenfassungsmethode vor, bei der wichtige Inhalte in einem Video schrittweise identifiziert werden, um bessere Zusammenfassungen zu generieren. Umfangreiche Experimente haben die Effektivität und Überlegenheit unserer Methode in Rangkorrelationskoeffizienten und F-Wert gezeigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Progressive Video Zusammenfassung durch multimodales selbstüberwachtes Lernen | Paper | HyperAI