Spatio Temporal Video Grounding
Spatio-temporal video grounding 是一项结合计算机视觉和自然语言处理的任务,旨在将文本描述与视频中的特定时空区域或时刻进行关联,确定视频中哪些部分对应给定的文本查询或描述。该任务对于视频摘要、基于内容的视频检索、视频字幕生成等应用具有重要价值。
Spatio-temporal video grounding 是一项结合计算机视觉和自然语言处理的任务,旨在将文本描述与视频中的特定时空区域或时刻进行关联,确定视频中哪些部分对应给定的文本查询或描述。该任务对于视频摘要、基于内容的视频检索、视频字幕生成等应用具有重要价值。