8 个月前

多模态表征

计算机视觉

Xu Yan† Jiantao Gao† Chaoda Zheng† Chao Zheng Ruimao Zhang Shuguang Cui Zhen Li∗

摘要

随着摄像头和激光雷达传感器在自动驾驶中捕捉互补信息，研究人员已投入大量精力开发通过多模态数据融合实现的语义分割算法。然而，基于融合的方法需要配对数据，即训练和推理过程中都需要严格对应的激光雷达点云和摄像头图像，这严重限制了其在实际场景中的应用。因此，在本研究中，我们提出了一种通用的训练方案——2D 先验辅助语义分割（2DPASS），通过充分利用具有丰富外观信息的 2D 图像来增强点云的表示学习。具体而言，通过利用辅助模态融合和多尺度融合到单模态的知识蒸馏（MSFSKD），2DPASS 从多模态数据中获取更丰富的语义和结构信息，并在线将其蒸馏到纯 3D 网络中。结果表明，配备 2DPASS 的基线模型仅使用点云输入就表现出显著的性能提升。特别是在两个大规模基准测试集（即 SemanticKITTI 和 NuScenes）上，该模型取得了当前最佳的结果，包括在 SemanticKITTI 单次扫描和多次扫描竞赛中的第一名。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Xu Yan† Jiantao Gao† Chaoda Zheng† Chao Zheng Ruimao Zhang Shuguang Cui Zhen Li∗

摘要

随着摄像头和激光雷达传感器在自动驾驶中捕捉互补信息，研究人员已投入大量精力开发通过多模态数据融合实现的语义分割算法。然而，基于融合的方法需要配对数据，即训练和推理过程中都需要严格对应的激光雷达点云和摄像头图像，这严重限制了其在实际场景中的应用。因此，在本研究中，我们提出了一种通用的训练方案——2D 先验辅助语义分割（2DPASS），通过充分利用具有丰富外观信息的 2D 图像来增强点云的表示学习。具体而言，通过利用辅助模态融合和多尺度融合到单模态的知识蒸馏（MSFSKD），2DPASS 从多模态数据中获取更丰富的语义和结构信息，并在线将其蒸馏到纯 3D 网络中。结果表明，配备 2DPASS 的基线模型仅使用点云输入就表现出显著的性能提升。特别是在两个大规模基准测试集（即 SemanticKITTI 和 NuScenes）上，该模型取得了当前最佳的结果，包括在 SemanticKITTI 单次扫描和多次扫描竞赛中的第一名。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供