vor 2 Monaten

UniVTG: Auf dem Weg zu vereintem video-linguistischem zeitlichen Ankerung

Lin, Kevin Qinghong ; Zhang, Pengchuan ; Chen, Joya ; Pramanick, Shraman ; Gao, Difei ; Wang, Alex Jinpeng ; Yan, Rui ; Shou, Mike Zheng

Details der Forschungsarbeit anzeigen

UniVTG: Auf dem Weg zu vereintem video-linguistischem zeitlichen Ankerung

Abstract

Video-Temporal-Grounding (VTG), das darauf abzielt, Zielabschnitte aus Videos (wie aufeinanderfolgende Intervalle oder getrennte Schnitte) gemäß benutzerdefinierten Sprachanfragen (z.B. Sätzen oder Wörtern) zu verorten, ist entscheidend für die Videobearbeitung in sozialen Medien. Die meisten Methoden in dieser Richtung entwickeln aufgabenbezogene Modelle, die mit typspezifischen Labels trainiert werden, wie Moment-Retrieval (Zeitintervall) und Highlight-Detektion (Wertigkeitskurve). Dies begrenzt ihre Fähigkeiten, sich auf verschiedene VTG-Aufgaben und -Labels zu verallgemeinern. In diesem Artikel schlagen wir vor, die vielfältigen VTG-Labels und -Aufgaben unter dem Namen UniVTG in drei Richtungen zu vereinen: Erstens überarbeiten wir eine breite Palette von VTG-Labels und -Aufgaben und definieren eine einheitliche Formulierung. Auf dieser Grundlage entwickeln wir Datenaufbereitungsschemata zur Erstellung skalierbarer Pseudo-Supervision. Zweitens erarbeiten wir ein effektives und flexibles Verortungsmodell, das jede Aufgabe bewältigen kann und den vollen Nutzen jedes Labels zieht. Drittens ermöglicht uns der einheitliche Rahmen, die temporale Verortungsvortrainung durch umfangreiche vielfältige Labels zu entfalten und stärkere Verortungsfähigkeiten zu entwickeln, z.B. zero-shot-Verortung. Ausführliche Experimente zu drei Aufgaben (Moment-Retrieval, Highlight-Detektion und Video-Zusammenfassung) über sieben Datensätze (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum und QFVS) belegen die Effektivität und Flexibilität unseres vorgeschlagenen Frameworks. Der Quellcode ist unter https://github.com/showlab/UniVTG verfügbar.