2 个月前

OccFormer:基于视觉的双路径Transformer用于3D语义占用预测

Zhang, Yunpeng ; Zhu, Zheng ; Du, Dalong
OccFormer:基于视觉的双路径Transformer用于3D语义占用预测
摘要

基于视觉的自动驾驶感知已经从鸟瞰图(BEV)表示转变为3D语义占用。与BEV平面相比,3D语义占用进一步提供了沿垂直方向的结构信息。本文介绍了OccFormer,一种双路径变换器网络,用于有效处理3D体素以进行语义占用预测。OccFormer通过将繁重的3D处理分解为水平面上的局部和全局变换器路径,实现了对相机生成的3D体素特征的长距离、动态且高效的编码。对于占用解码器,我们提出了保留池化(preserve-pooling)和类别引导采样(class-guided sampling),对Mask2Former进行了适应性改进,显著缓解了稀疏性和类别不平衡问题。实验结果表明,OccFormer在SemanticKITTI数据集上的语义场景补全任务以及nuScenes数据集上的激光雷达语义分割任务中显著优于现有方法。代码可在以下链接获取:\url{https://github.com/zhangyp15/OccFormer}。