2 个月前

PolyphonicFormer:用于深度感知视频全景分割的统一查询学习

Haobo Yuan; Xiangtai Li; Yibo Yang; Guangliang Cheng; Jing Zhang; Yunhai Tong; Lefei Zhang; Dacheng Tao
PolyphonicFormer:用于深度感知视频全景分割的统一查询学习
摘要

深度感知视频全景分割(Depth-aware Video Panoptic Segmentation, DVPS)是一个新的具有挑战性的视觉问题,旨在同时预测视频中的全景分割和深度。以往的研究通过扩展现有的全景分割方法并添加一个额外的密集深度预测和实例跟踪头部来解决这一任务。然而,深度与全景分割之间的关系尚未得到充分探索——简单地结合现有方法会导致任务间的竞争,并需要仔细调整权重平衡。在本文中,我们提出了PolyphonicFormer,这是一种视觉变换器,旨在将这些子任务统一到DVPS任务下,从而获得更稳健的结果。我们的主要见解是,深度可以通过我们提出的新范式与全景分割相协调,即利用对象查询预测实例级别的深度图。随后,通过基于查询的学习探索了这两个任务之间的关系。由于每个事物查询也编码了实例级信息,因此可以直接通过外观学习进行跟踪。实验结果表明,我们的设计在深度估计和全景分割两个方面都带来了显著的好处。我们的方法在两个DVPS数据集(Semantic KITTI、Cityscapes)上取得了最先进的结果,并在ICCV-2021 BMTT Challenge的视频+深度赛道中排名第一。代码已发布在https://github.com/HarborYuan/PolyphonicFormer 。

PolyphonicFormer:用于深度感知视频全景分割的统一查询学习 | 最新论文 | HyperAI超神经