6 个月前

机器视觉 3D

计算机视觉

Siqi Li Changqing Zou Yipeng Li Xibin Zhao Yue Gao

摘要

本文提出了一种端到端的3D卷积网络——基于注意力的多模态融合网络（Attention-based Multi-modal Fusion Network, AMFNet），用于语义场景补全（Semantic Scene Completion, SSC）任务，旨在从单视角RGB-D图像中推断出体素化3D场景的占据状态与语义标签。与以往仅依赖RGB-D图像提取的语义特征的方法不同，所提出的AMFNet通过融合从RGB-D图像中推断2D语义分割的经验以及空间维度中可靠的深度信息，实现了3D场景补全与语义分割的联合优化。该方法通过构建基于2D语义分割的多模态融合架构，并引入残差注意力模块增强3D语义补全网络，从而有效提升模型性能。我们在合成的SUNCG-RGBD数据集和真实的NYUv2数据集上对所提方法进行了验证，实验结果表明，相较于当前最先进的方法，本方法在SUNCG-RGBD数据集上取得了2.5%的性能提升，在NYUv2真实数据集上实现了2.6%的提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

机器视觉 3D

计算机视觉

Siqi Li Changqing Zou Yipeng Li Xibin Zhao Yue Gao

摘要

本文提出了一种端到端的3D卷积网络——基于注意力的多模态融合网络（Attention-based Multi-modal Fusion Network, AMFNet），用于语义场景补全（Semantic Scene Completion, SSC）任务，旨在从单视角RGB-D图像中推断出体素化3D场景的占据状态与语义标签。与以往仅依赖RGB-D图像提取的语义特征的方法不同，所提出的AMFNet通过融合从RGB-D图像中推断2D语义分割的经验以及空间维度中可靠的深度信息，实现了3D场景补全与语义分割的联合优化。该方法通过构建基于2D语义分割的多模态融合架构，并引入残差注意力模块增强3D语义补全网络，从而有效提升模型性能。我们在合成的SUNCG-RGBD数据集和真实的NYUv2数据集上对所提方法进行了验证，实验结果表明，相较于当前最先进的方法，本方法在SUNCG-RGBD数据集上取得了2.5%的性能提升，在NYUv2真实数据集上实现了2.6%的提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供