HyperAI超神经

Spatio Temporal Video Grounding

Spatio-temporal video grounding 是一项结合计算机视觉和自然语言处理的任务,旨在将文本描述与视频中的特定时空区域或时刻进行关联,确定视频中哪些部分对应给定的文本查询或描述。该任务对于视频摘要、基于内容的视频检索、视频字幕生成等应用具有重要价值。