6 个月前

机器视觉 3D

计算机视觉

Siyu Chen Ting Han Changshe Zhang Weiquan Liu Jinhe Su Zongyue Wang Guorong Cai

摘要

RGB-D数据在辅助驾驶系统中理解复杂场景方面正逐渐成为关键的数据来源。然而，现有研究对深度图固有的空间特性关注不足，这一疏忽显著影响了注意力机制的表征能力，导致因注意力错位而引发的预测误差。为此，本文提出一种新型可学习的深度交互金字塔Transformer（Depth interaction Pyramid Transformer, DiPFormer），旨在充分挖掘深度信息的有效性。首先，引入深度空间感知优化（Depth Spatial-Aware Optimization, Depth SAO）作为偏移量，以准确建模现实世界中的空间关系；其次，通过深度线性交叉注意力（Depth Linear Cross-Attention, Depth LCA）学习RGB-D特征空间中的相似性，从而在像素级别上明确空间差异；最后，采用MLP解码器有效融合多尺度特征，以满足实时性需求。大量实验结果表明，所提出的DiPFormer在道路检测任务中显著缓解了注意力错位问题，性能提升达+7.5%；在语义分割任务中，分别实现+4.9%和+1.5%的显著提升。在KITTI数据集上，DiPFormer取得了97.57%的F-score（道路检测）和68.74%的mIoU（KITTI-360）；在Cityscapes数据集上达到83.4%的mIoU，均达到当前最优水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

机器视觉 3D

计算机视觉

Siyu Chen Ting Han Changshe Zhang Weiquan Liu Jinhe Su Zongyue Wang Guorong Cai

摘要

RGB-D数据在辅助驾驶系统中理解复杂场景方面正逐渐成为关键的数据来源。然而，现有研究对深度图固有的空间特性关注不足，这一疏忽显著影响了注意力机制的表征能力，导致因注意力错位而引发的预测误差。为此，本文提出一种新型可学习的深度交互金字塔Transformer（Depth interaction Pyramid Transformer, DiPFormer），旨在充分挖掘深度信息的有效性。首先，引入深度空间感知优化（Depth Spatial-Aware Optimization, Depth SAO）作为偏移量，以准确建模现实世界中的空间关系；其次，通过深度线性交叉注意力（Depth Linear Cross-Attention, Depth LCA）学习RGB-D特征空间中的相似性，从而在像素级别上明确空间差异；最后，采用MLP解码器有效融合多尺度特征，以满足实时性需求。大量实验结果表明，所提出的DiPFormer在道路检测任务中显著缓解了注意力错位问题，性能提升达+7.5%；在语义分割任务中，分别实现+4.9%和+1.5%的显著提升。在KITTI数据集上，DiPFormer取得了97.57%的F-score（道路检测）和68.74%的mIoU（KITTI-360）；在Cityscapes数据集上达到83.4%的mIoU，均达到当前最优水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供