Spatio-temporales Video-Grounding | SOTA | HyperAI

Spatio-temporales Video-Grounding ist eine Aufgabe, die Computer Vision und Natürliche Sprachverarbeitung kombiniert. Das Ziel besteht darin, Textbeschreibungen mit spezifischen räumlich-zeitlichen Bereichen oder Momenten in einem Video zu verknüpfen, um zu bestimmen, welche Teile des Videos der gegebenen Textanfrage oder -beschreibung entsprechen. Diese Aufgabe ist von großer Bedeutung für Anwendungen wie Videozusammenfassung, inhaltsbasierte Videorecherche und Videobeschreibungserstellung.