Video ReCap: Rekursive Beschreibungstextgenerierung für stundenlange Videos

Die meisten Modelle für Video-Captioning sind darauf ausgelegt, kurze Videoclips von wenigen Sekunden zu verarbeiten und Texte zu generieren, die niedrigstufige visuelle Konzepte beschreiben (z. B. Objekte, Szenen, atomare Aktionen). In der Praxis bestehen jedoch die meisten Videos aus Minuten oder sogar Stunden und weisen eine komplexe hierarchische Struktur über unterschiedliche zeitliche Granularitäten auf. Wir stellen Video ReCap vor, ein rekursives Video-Captioning-Modell, das Videoeingaben mit dramatisch unterschiedlicher Länge (von 1 Sekunde bis zu 2 Stunden) verarbeiten und mehrstufige Zusammenfassungen auf verschiedenen Hierarchieebenen generieren kann. Die rekursive Video-Sprache-Architektur nutzt die Synergie zwischen verschiedenen Video-Hierarchien und ermöglicht eine effiziente Verarbeitung stundenlanger Videos. Wir setzen ein Curriculum-Learning-Trainingsverfahren ein, um die hierarchische Struktur von Videos zu lernen: zunächst werden Clip-Ebene-Zusammenfassungen für atomare Aktionen erzeugt, anschließend werden Segment-Ebene-Beschreibungen erlernt, und schließlich wird die Generierung von Zusammenfassungen für stundenlange Videos trainiert. Darüber hinaus führen wir die Ego4D-HCap-Datenbank ein, die Ego4D durch 8.267 manuell erstellte langfristige Videozusammenfassungen erweitert. Unser rekursives Modell kann flexibel Zusammenfassungen auf unterschiedlichen Hierarchieebenen generieren und ist zudem für andere anspruchsvolle Aufgaben im Bereich der Videoverstehens nutzbar, wie beispielsweise VideoQA auf EgoSchema. Daten, Code und Modelle sind unter folgender Adresse verfügbar: https://sites.google.com/view/vidrecap