8 个月前

卷积神经网络

计算机视觉

Siqi Du Weixi Wang Renzhong Guo Ruisheng Wang Yibin Tian Shengjun Tang

摘要

理解室内场景对于城市研究至关重要。考虑到室内环境的动态特性，有效的语义分割不仅需要实时操作，还需要高精度。为此，我们提出了一种新型网络——AsymFormer，该网络利用RGB-D多模态信息在不显著增加网络复杂度的情况下提高了实时语义分割的准确性。AsymFormer采用非对称主干网络进行多模态特征提取，通过优化计算资源分配减少冗余参数。为了融合非对称多模态特征，引入了局部注意力引导特征选择（Local Attention-Guided Feature Selection, LAFS）模块，该模块通过利用不同模态之间的依赖关系有选择地融合特征。随后，引入了跨模态注意力引导特征相关嵌入（Cross-Modal Attention-Guided Feature Correlation Embedding, CMA）模块，进一步提取跨模态表示。AsymFormer在NYUv2数据集上达到了54.1%的mIoU，在SUNRGBD数据集上达到了49.1%的mIoU，展示了具有竞争力的结果。值得注意的是，AsymFormer在RTX3090显卡上的推理速度为65 FPS（实施混合精度量化后为79 FPS），表明AsymFormer能够在高精度和效率之间取得平衡。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

Siqi Du Weixi Wang Renzhong Guo Ruisheng Wang Yibin Tian Shengjun Tang

摘要

理解室内场景对于城市研究至关重要。考虑到室内环境的动态特性，有效的语义分割不仅需要实时操作，还需要高精度。为此，我们提出了一种新型网络——AsymFormer，该网络利用RGB-D多模态信息在不显著增加网络复杂度的情况下提高了实时语义分割的准确性。AsymFormer采用非对称主干网络进行多模态特征提取，通过优化计算资源分配减少冗余参数。为了融合非对称多模态特征，引入了局部注意力引导特征选择（Local Attention-Guided Feature Selection, LAFS）模块，该模块通过利用不同模态之间的依赖关系有选择地融合特征。随后，引入了跨模态注意力引导特征相关嵌入（Cross-Modal Attention-Guided Feature Correlation Embedding, CMA）模块，进一步提取跨模态表示。AsymFormer在NYUv2数据集上达到了54.1%的mIoU，在SUNRGBD数据集上达到了49.1%的mIoU，展示了具有竞争力的结果。值得注意的是，AsymFormer在RTX3090显卡上的推理速度为65 FPS（实施混合精度量化后为79 FPS），表明AsymFormer能够在高精度和效率之间取得平衡。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供