2 个月前

ViP-DeepLab:基于深度感知的视频全景分割学习视觉感知

Siyuan Qiao; Yukun Zhu; Hartwig Adam; Alan Yuille; Liang-Chieh Chen
ViP-DeepLab:基于深度感知的视频全景分割学习视觉感知
摘要

在本文中,我们介绍了ViP-DeepLab,这是一种统一模型,旨在解决视觉领域中长期存在的具有挑战性的逆投影问题。我们将该问题建模为从透视图像序列中恢复点云,并为每个点提供实例级别的语义解释。解决这一问题需要视觉模型预测每个3D点的空间位置、语义类别以及时间上一致的实例标签。ViP-DeepLab通过联合执行单目深度估计和视频全景分割来实现这一点。我们将这种联合任务称为深度感知视频全景分割(Depth-aware Video Panoptic Segmentation),并为此提出了一种新的评估指标以及两个衍生数据集,这些数据集将向公众开放。在各个子任务上,ViP-DeepLab也取得了最先进的结果,在Cityscapes-VPS数据集上的VPQ指标比先前方法提高了5.1%,并在KITTI单目深度估计基准测试和KITTI MOTS行人检测任务中均排名第一。相关数据集和评估代码已公开发布。

ViP-DeepLab:基于深度感知的视频全景分割学习视觉感知 | 最新论文 | HyperAI超神经