HyperAI

Video Narrative Grounding ist eine Aufgabe, die visuelle und linguistische Informationen verknüpft, wobei das Ziel darin besteht, Video-Narrative mit spezifischen Videosegmenten zu assoziieren. Diese Aufgabe verwendet als Eingabe ein Video, das Textbeschreibungen enthält, sowie die Positionen der Substantive innerhalb dieser Beschreibungen. Das Ziel ist es, Segmentierungsmasken für die entsprechenden Zielobjekte jedes markierten Substantivs in jedem Frame zu generieren. Durch die genaue Lokalisierung von Objekten in Videos hat Video Narrative Grounding erhebliche Anwendungswerte in Bereichen wie multimodalem Verständnis, Videoannotierung und Inhaltsretrieval.

Keine Daten

Keine Benchmark-Daten für diese Aufgabe verfügbar

HyperAI

Keine Daten

Keine Benchmark-Daten für diese Aufgabe verfügbar

Command Palette

Video-Narrativ-Verankerung

Command Palette

Video-Narrativ-Verankerung

Command Palette

Video-Narrativ-Verankerung