2 个月前
MeViS:一个大规模的基于运动表达的视频分割基准数据集
Ding, Henghui ; Liu, Chang ; He, Shuting ; Jiang, Xudong ; Loy, Chen Change

摘要
本文致力于研究基于运动描述的视频分割,重点在于根据描述物体运动的句子对视频内容中的物体进行分割。现有的指代视频对象数据集通常关注显著物体,并使用包含过多静态属性的语言表达,这可能导致目标物体仅通过单帧图像即可被识别。这些数据集低估了运动在语言引导的视频对象分割中的重要性。为了探讨使用运动描述来定位和分割视频中物体的可行性,我们提出了一种大规模数据集,称为MeViS(Motion Expressions in Video Segmentation),该数据集中包含了大量用于指示复杂环境中目标物体的运动描述。我们在MeViS数据集上对5种现有的指代视频对象分割(RVOS)方法进行了基准测试,并进行了全面的比较。结果表明,当前的RVOS方法无法有效应对基于运动描述的视频分割问题。我们进一步分析了其中的挑战,并为提出的MeViS数据集提供了一种基线方法。我们的基准测试旨在提供一个平台,促进能够利用运动描述作为主要线索在复杂视频场景中进行有效语言引导视频分割算法的发展。所提出的MeViS数据集已发布在https://henghuiding.github.io/MeViS。