17日前

Depth Matters: RGB-Dによる交通シーンにおけるセマンティックセグメンテーションのための深層相互作用の探求

Siyu Chen, Ting Han, Changshe Zhang, Weiquan Liu, Jinhe Su, Zongyue Wang, Guorong Cai
Depth Matters: RGB-Dによる交通シーンにおけるセマンティックセグメンテーションのための深層相互作用の探求
要約

RGB-Dデータは、支援運転における複雑なシーン理解において、徐々に重要なデータソースとして位置づけられている。しかし、既存の研究では深度マップが持つ固有の空間特性に十分な注目が払われておらず、この見落としが注目メカニズムの表現に深刻な影響を与え、注目領域のずれに起因する予測誤差を引き起こしている。こうした課題に対応するため、本研究では、深度情報の有効性を活用するための新たな学習可能なDepth Interaction Pyramid Transformer(DiPFormer)を提案する。まず、実世界の空間関係を正確に表現するため、Depth Spatial-Aware Optimization(Depth SAO)をオフセットとして導入する。次に、RGB-Dの特徴空間における類似性をDepth Linear Cross-Attention(Depth LCA)によって学習することで、ピクセルレベルでの空間的差異を明確化する。さらに、マルチスケール特徴の効果的な統合を実現し、リアルタイム要件を満たすためにMLPデコーダを採用する。広範な実験により、提案手法DiPFormerが、道路検出(+7.5%)およびセマンティックセグメンテーション(+4.9% / +1.5%)の両タスクにおいて注目領域の不整合問題を顕著に改善することが示された。DiPFormerはKITTI(道路検出:97.57% Fスコア、KITTI-360:68.74% mIoU)およびCityscapes(83.4% mIoU)データセットにおいて、最先端の性能を達成した。

Depth Matters: RGB-Dによる交通シーンにおけるセマンティックセグメンテーションのための深層相互作用の探求 | 最新論文 | HyperAI超神経