HyperAIHyperAI

Command Palette

Search for a command to run...

UniVTG: Auf dem Weg zu vereintem video-linguistischem zeitlichen Ankerung

Kevin Qinghong Lin Pengchuan Zhang Joya Chen Shraman Pramanick Difei Gao Alex Jinpeng Wang Rui Yan Mike Zheng Shou

Zusammenfassung

Video-Temporal-Grounding (VTG), das darauf abzielt, Zielabschnitte aus Videos (wie aufeinanderfolgende Intervalle oder getrennte Schnitte) gemäß benutzerdefinierten Sprachanfragen (z.B. Sätzen oder Wörtern) zu verorten, ist entscheidend für die Videobearbeitung in sozialen Medien. Die meisten Methoden in dieser Richtung entwickeln aufgabenbezogene Modelle, die mit typspezifischen Labels trainiert werden, wie Moment-Retrieval (Zeitintervall) und Highlight-Detektion (Wertigkeitskurve). Dies begrenzt ihre Fähigkeiten, sich auf verschiedene VTG-Aufgaben und -Labels zu verallgemeinern. In diesem Artikel schlagen wir vor, die vielfältigen VTG-Labels und -Aufgaben unter dem Namen UniVTG in drei Richtungen zu vereinen: Erstens überarbeiten wir eine breite Palette von VTG-Labels und -Aufgaben und definieren eine einheitliche Formulierung. Auf dieser Grundlage entwickeln wir Datenaufbereitungsschemata zur Erstellung skalierbarer Pseudo-Supervision. Zweitens erarbeiten wir ein effektives und flexibles Verortungsmodell, das jede Aufgabe bewältigen kann und den vollen Nutzen jedes Labels zieht. Drittens ermöglicht uns der einheitliche Rahmen, die temporale Verortungsvortrainung durch umfangreiche vielfältige Labels zu entfalten und stärkere Verortungsfähigkeiten zu entwickeln, z.B. zero-shot-Verortung. Ausführliche Experimente zu drei Aufgaben (Moment-Retrieval, Highlight-Detektion und Video-Zusammenfassung) über sieben Datensätze (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum und QFVS) belegen die Effektivität und Flexibilität unseres vorgeschlagenen Frameworks. Der Quellcode ist unter https://github.com/showlab/UniVTG verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp