HyperAI

摘要

基于视觉的自动驾驶感知已经从鸟瞰图（BEV）表示转变为3D语义占用。与BEV平面相比，3D语义占用进一步提供了沿垂直方向的结构信息。本文介绍了OccFormer，一种双路径变换器网络，用于有效处理3D体素以进行语义占用预测。OccFormer通过将繁重的3D处理分解为水平面上的局部和全局变换器路径，实现了对相机生成的3D体素特征的长距离、动态且高效的编码。对于占用解码器，我们提出了保留池化（preserve-pooling）和类别引导采样（class-guided sampling），对Mask2Former进行了适应性改进，显著缓解了稀疏性和类别不平衡问题。实验结果表明，OccFormer在SemanticKITTI数据集上的语义场景补全任务以及nuScenes数据集上的激光雷达语义分割任务中显著优于现有方法。代码可在以下链接获取：\url{https://github.com/zhangyp15/OccFormer}。

摘要

Yunpeng Zhang Zheng Zhu* Dalong Du

摘要

用 AI 构建 AI

HyperAI Newsletters

Yunpeng Zhang Zheng Zhu* Dalong Du

摘要

用 AI 构建 AI

HyperAI Newsletters

Yunpeng Zhang Zheng Zhu* Dalong Du

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OccFormer：基于视觉的双路径Transformer用于3D语义占用预测

Yunpeng Zhang Zheng Zhu* Dalong Du

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OccFormer：基于视觉的双路径Transformer用于3D语义占用预测

Yunpeng Zhang Zheng Zhu* Dalong Du

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OccFormer：基于视觉的双路径Transformer用于3D语义占用预测

Yunpeng Zhang Zheng Zhu* Dalong Du

摘要

用 AI 构建 AI

HyperAI Newsletters