Command Palette
Search for a command to run...
Video-Narrativ-Verankerung
Video Narrative Grounding ist eine Aufgabe, die visuelle und linguistische Informationen verknüpft, wobei das Ziel darin besteht, Video-Narrative mit spezifischen Videosegmenten zu assoziieren. Diese Aufgabe verwendet als Eingabe ein Video, das Textbeschreibungen enthält, sowie die Positionen der Substantive innerhalb dieser Beschreibungen. Das Ziel ist es, Segmentierungsmasken für die entsprechenden Zielobjekte jedes markierten Substantivs in jedem Frame zu generieren. Durch die genaue Lokalisierung von Objekten in Videos hat Video Narrative Grounding erhebliche Anwendungswerte in Bereichen wie multimodalem Verständnis, Videoannotierung und Inhaltsretrieval.