HyperAIHyperAI
vor 12 Tagen

Gemeinsame Video-Zusammenfassung und Moment-Lokalisierung durch Kreuz-Aufgaben-Probenübertragung

{Yadong Mu, Hao Jiang}
Gemeinsame Video-Zusammenfassung und Moment-Lokalisierung durch Kreuz-Aufgaben-Probenübertragung
Abstract

Die Videozusammenfassung hat in den letzten Jahren zunehmend Aufmerksamkeit in der Computer Vision-Community erhalten. Ein zentrales Hindernis für diese Aufgabe bleibt jedoch die Knappheit an annotierten Daten. Um diesem Problem zu begegnen, untersucht diese Arbeit eine neue Lösung für die Videozusammenfassung, indem Stichproben aus einer korrelierten Aufgabe – nämlich der Video-Moment-Lokalisierung – mit reichlich verfügbaren Trainingsdaten übertragen werden. Unser zentrales Insight ist, dass annotierte Video-Momente ebenfalls die semantischen Highlights eines Videos markieren, was im Wesentlichen der Videozusammenfassung entspricht. Grob gesagt kann die Videozusammenfassung als eine spärliche, redundanzfreie Version der Video-Momente betrachtet werden. Inspiriert durch diese Beobachtung schlagen wir ein wichtigkeitsbasiertes kooperatives Teaching-Netzwerk (iPTNet) vor. Es besteht aus zwei getrennten Modulen, die jeweils die Videozusammenfassung und die Moment-Lokalisierung durchführen. Jedes Modul schätzt eine frameweise Wichtigkeitskarte, um Schlüsselbilder oder Momente zu identifizieren. Um den Austausch von Stichproben zwischen den Aufgaben zu ermöglichen, entwickeln wir ein Wichtigkeits-Übertragungsmodul, das die Umwandlung zwischen zusammenfassungsgeleiteten und lokalisierungsgeleiteten Wichtigkeitskarten realisiert. Dadurch wird es möglich, eine der Aufgaben mit Daten aus der anderen Aufgabe zu optimieren. Zusätzlich schlagen wir ein kooperatives Teaching-Schema vor, um die durch batchweise gemeinsame Trainierung verursachte Fehlerverstärkung zu vermeiden. Dieses Schema verwendet eine cross-task mean-teaching-Strategie, um die gemeinsame Optimierung beider Aufgaben zu ermöglichen und robuste, framebasierte Lehrsignale bereitzustellen. Umfangreiche Experimente auf Standardbenchmarks für Videozusammenfassung zeigen, dass iPTNet die bisherigen state-of-the-art-Methoden erheblich übertrifft und somit eine effektive Lösung darstellt, die die Datenknappheit in der Videozusammenfassung überwindet.

Gemeinsame Video-Zusammenfassung und Moment-Lokalisierung durch Kreuz-Aufgaben-Probenübertragung | Neueste Forschungsarbeiten | HyperAI