HyperAIHyperAI

Command Palette

Search for a command to run...

OccFormer:基于视觉的双路径Transformer用于3D语义占用预测

Yunpeng Zhang Zheng Zhu* Dalong Du

摘要

基于视觉的自动驾驶感知已经从鸟瞰图(BEV)表示转变为3D语义占用。与BEV平面相比,3D语义占用进一步提供了沿垂直方向的结构信息。本文介绍了OccFormer,一种双路径变换器网络,用于有效处理3D体素以进行语义占用预测。OccFormer通过将繁重的3D处理分解为水平面上的局部和全局变换器路径,实现了对相机生成的3D体素特征的长距离、动态且高效的编码。对于占用解码器,我们提出了保留池化(preserve-pooling)和类别引导采样(class-guided sampling),对Mask2Former进行了适应性改进,显著缓解了稀疏性和类别不平衡问题。实验结果表明,OccFormer在SemanticKITTI数据集上的语义场景补全任务以及nuScenes数据集上的激光雷达语义分割任务中显著优于现有方法。代码可在以下链接获取:\url{https://github.com/zhangyp15/OccFormer}


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OccFormer:基于视觉的双路径Transformer用于3D语义占用预测 | 论文 | HyperAI超神经