6 个月前

卷积神经网络

计算机视觉

Masum Shah Junayed Arezoo Sadeghzadeh Md Baharul Islam Lai-Kuan Wong Tarkan Aydin

摘要

单目全景深度估计因其在感知360°周围环境方面的广泛应用而受到广泛关注。现有方法在恢复小物体细节以及在真值深度图获取过程中出现的数据丢失方面仍存在显著局限性。本文提出一种新型单目全景深度估计模型——HiMODE，该模型基于混合CNN+Transformer（编码器-解码器）架构，其模块设计高效，能够在不降低性能的前提下有效缓解畸变问题并降低计算成本。首先，我们设计了一种基于HNet模块的特征金字塔网络，用于提取边缘附近高分辨率的特征。通过在Transformer编码器和解码器中分别引入自注意力与交叉注意力层以及空间/时间块，进一步提升了模型性能。此外，采用空间残差块以减少参数量。通过将骨干网络各层级提取的深层特征与Transformer编码器-解码器预测的原始深度图联合输入至上下文调整层，本模型能够生成视觉质量优于真值深度图的输出结果。全面的消融实验验证了各模块的必要性与贡献。在Stanford3D、Matterport3D和SunCG三个数据集上开展的大量实验表明，HiMODE在360°单目深度估计任务中达到了当前最优性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Masum Shah Junayed Arezoo Sadeghzadeh Md Baharul Islam Lai-Kuan Wong Tarkan Aydin

摘要

单目全景深度估计因其在感知360°周围环境方面的广泛应用而受到广泛关注。现有方法在恢复小物体细节以及在真值深度图获取过程中出现的数据丢失方面仍存在显著局限性。本文提出一种新型单目全景深度估计模型——HiMODE，该模型基于混合CNN+Transformer（编码器-解码器）架构，其模块设计高效，能够在不降低性能的前提下有效缓解畸变问题并降低计算成本。首先，我们设计了一种基于HNet模块的特征金字塔网络，用于提取边缘附近高分辨率的特征。通过在Transformer编码器和解码器中分别引入自注意力与交叉注意力层以及空间/时间块，进一步提升了模型性能。此外，采用空间残差块以减少参数量。通过将骨干网络各层级提取的深层特征与Transformer编码器-解码器预测的原始深度图联合输入至上下文调整层，本模型能够生成视觉质量优于真值深度图的输出结果。全面的消融实验验证了各模块的必要性与贡献。在Stanford3D、Matterport3D和SunCG三个数据集上开展的大量实验表明，HiMODE在360°单目深度估计任务中达到了当前最优性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供