Video Grounding
Video-Grounding ist eine Aufgabe im Bereich der Computer Vision, die das Ziel verfolgt, natürlichsprachliche Beschreibungen mit spezifischen Videoabschnitten zu verknüpfen. Diese Aufgabe erfordert, dass das Modell die genauen Videoclips identifiziert, die der gegebenen Beschreibung entsprechen, einschließlich der Lokalisierung der erwähnten Objekte oder Aktionen oder der Bestimmung der Zeitintervalle, die der Beschreibung entsprechen. Video-Grounding hat erheblichen Wert für Anwendungen wie die Video-Retrieval, Inhaltsanalyse und intelligente Annotation.