6 个月前

计算机视觉

计算机视觉

Minh Bui Kostas Alexis

摘要

基于视觉的感知与推理对于任何自主系统中的场景理解都至关重要。RGB图像与深度图像常被用于捕捉环境的语义特征与几何特征。在实际应用中，由于测量噪声难以避免，开发能够可靠解析此类数据的方法尤为关键。本文提出一种基于扩散模型的框架，以解决RGB-D语义分割问题。此外，我们验证了采用可变形注意力Transformer作为编码器从深度图像中提取特征，能够有效捕捉深度测量中无效区域的特性。所提出的生成式框架在建模RGB-D图像潜在分布方面展现出更强的能力，在复杂场景下表现出优异的鲁棒性，且相较于判别式方法，显著减少了训练时间。实验结果表明，我们的方法在NYUv2与SUN-RGBD两个数据集上均达到了当前最优（SOTA）性能，尤其在最具挑战性的图像数据上表现突出。项目主页将发布于：https://diffusionmms.github.io/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Minh Bui Kostas Alexis

摘要

基于视觉的感知与推理对于任何自主系统中的场景理解都至关重要。RGB图像与深度图像常被用于捕捉环境的语义特征与几何特征。在实际应用中，由于测量噪声难以避免，开发能够可靠解析此类数据的方法尤为关键。本文提出一种基于扩散模型的框架，以解决RGB-D语义分割问题。此外，我们验证了采用可变形注意力Transformer作为编码器从深度图像中提取特征，能够有效捕捉深度测量中无效区域的特性。所提出的生成式框架在建模RGB-D图像潜在分布方面展现出更强的能力，在复杂场景下表现出优异的鲁棒性，且相较于判别式方法，显著减少了训练时间。实验结果表明，我们的方法在NYUv2与SUN-RGBD两个数据集上均达到了当前最优（SOTA）性能，尤其在最具挑战性的图像数据上表现突出。项目主页将发布于：https://diffusionmms.github.io/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供