2 个月前

UniOcc:统一以视觉为中心的3D占用预测与几何和语义渲染

Mingjie Pan; Li Liu; Jiaming Liu; Peixiang Huang; Longlong Wang; Shanghang Zhang; Shaoqing Xu; Zhiyi Lai; Kuiyuan Yang
UniOcc:统一以视觉为中心的3D占用预测与几何和语义渲染
摘要

在本技术报告中,我们介绍了名为 UniOCC 的解决方案,该方案用于 CVPR 2023 年 nuScenes 开放数据集挑战赛中的以视觉为中心的 3D 占据预测赛道。现有的占据预测方法主要集中在使用 3D 占据标签对投影到 3D 体积空间的特征进行优化。然而,这些标签的生成过程复杂且成本高昂(依赖于 3D 语义注释),并且由于体素分辨率的限制,它们无法提供细粒度的空间语义。为了解决这一局限性,我们提出了一种新颖的统一占据(UniOcc)预测方法,通过体积光线渲染显式施加空间几何约束并补充细粒度的语义监督。我们的方法显著提升了模型性能,并展示了减少人工注释成本的巨大潜力。鉴于标注 3D 占据的繁琐性质,我们进一步引入了深度感知教师-学生(Depth-aware Teacher Student, DTS)框架,利用未标注数据提高预测准确性。我们的解决方案在官方排行榜上单模型达到了 51.27% 的平均交并比(mIoU),在本次挑战赛中排名第三。

UniOcc:统一以视觉为中心的3D占用预测与几何和语义渲染 | 最新论文 | HyperAI超神经