2 个月前

基于对象中心的分层表示分割运动物体

Junyu Xie; Weidi Xie; Andrew Zisserman
基于对象中心的分层表示分割运动物体
摘要

本文的目标是构建一个能够在视频中发现、跟踪和分割多个移动物体的模型。我们做出了四项贡献:首先,我们引入了一种以物体为中心的分割模型,该模型采用深度排序的层表示方法。这一方法通过一种变体的Transformer架构实现,该架构输入光流数据,每个查询向量在整个视频中指定一个物体及其所在层。该模型能够有效地发现多个移动物体并处理相互遮挡问题;其次,我们提出了一种可扩展的数据生成管道,通过层组合生成多物体合成训练数据,用于训练所提出的模型,显著减少了对劳动密集型注释的需求,并支持从仿真到真实场景的泛化(Sim2Real generalisation);第三,我们进行了详尽的消融研究,表明该模型能够学习物体恒常性和时间形状一致性,并能够预测非模态分割掩码(amodal segmentation masks);最后,我们在仅使用合成数据训练的情况下,在标准视频分割基准DAVIS、MoCA、SegTrack、FBMS-59上评估了我们的模型,并在不依赖任何手动注释的方法中取得了最先进的性能。通过测试时适应(test-time adaptation),我们观察到了进一步的性能提升。

基于对象中心的分层表示分割运动物体 | 最新论文 | HyperAI超神经