Diskriminatives Merkmalslernen für die unüberwachte Videozusammenfassung

In dieser Arbeit adressieren wir das Problem der unüberwachten Videozusammenfassung, die automatisch Schlüsselaufnahmen aus einem Eingabevideo extrahiert. Insbesondere befassen wir uns auf Grundlage unserer empirischen Beobachtungen mit zwei kritischen Problemen: (i) Ineffektives Feature-Lernen aufgrund flacher Verteilungen der Ausgabe-Bedeutungswerte für jedes Bild, und (ii) Trainingschwierigkeiten bei der Verarbeitung langer Videoeingaben. Um das erste Problem zu lindern, schlagen wir einen einfachen, aber effektiven Regularisierungsverlust vor, den Varianzverlust. Der vorgeschlagene Varianzverlust ermöglicht es einem Netzwerk, Ausgabe-Werte für jedes Bild mit hoher Diskrepanz vorherzusagen, was effektives Feature-Lernen fördert und die Modellleistung erheblich verbessert. Für das zweite Problem entwickeln wir ein neuartiges Zwei-Stream-Netzwerk namens Chunk and Stride Network (CSNet), das lokale (Chunk) und globale (Stride) zeitliche Ansichten auf die Video-Features nutzt. Unser CSNet liefert bessere Zusammenfassungsergebnisse für lange Videos im Vergleich zu bestehenden Methoden. Darüber hinaus führen wir einen Aufmerksamkeitsmechanismus ein, um dynamische Informationen in Videos zu verarbeiten. Wir demonstrieren die Effektivität der vorgeschlagenen Methoden durch umfangreiche Abstraktionsstudien und zeigen, dass unser endgültiges Modell neue Standarte-Leistungen auf zwei Benchmark-Datensätzen erzielt.请注意,"ablation studies" 通常翻译为 "Abstraktionsstudien" 或 "Ablationsstudien"。在这里我选择了 "Abstraktionsstudien",但如果您有偏好,可以改为 "Ablationsstudien"。