2 个月前

TubeDETR:基于Transformer的时空视频定位

Yang, Antoine ; Miech, Antoine ; Sivic, Josef ; Laptev, Ivan ; Schmid, Cordelia
TubeDETR:基于Transformer的时空视频定位
摘要

我们研究了在视频中定位与给定文本查询相对应的空间-时间管的问题。这是一个具有挑战性的任务,需要对时间、空间和多模态交互进行联合且高效的建模。为了解决这一问题,我们提出了TubeDETR,这是一种基于变压器架构的模型,灵感来源于此类模型在文本条件下的目标检测中的最新成功。我们的模型特别包括:(i) 一个高效的视频和文本编码器,该编码器能够在稀疏采样的帧上建模空间多模态交互;(ii) 一个时空解码器,能够联合执行空间-时间定位。通过广泛的消融研究,我们展示了所提出组件的优势。我们还在空间-时间视频接地任务上评估了我们的整体方法,并在具有挑战性的VidSTG和HC-STVG基准测试中展示了优于现有最佳方法的改进。代码和训练好的模型可在 https://antoyang.github.io/tubedetr.html 公开获取。

TubeDETR:基于Transformer的时空视频定位 | 最新论文 | HyperAI超神经