16日前

RGB-Dセマンティックセグメンテーションにおける双方向的クロスモダリティ特徴伝播と分離・集約ゲート

Xiaokang Chen, Kwan-Yee Lin, Jingbo Wang, Wayne Wu, Chen Qian, Hongsheng Li, Gang Zeng
RGB-Dセマンティックセグメンテーションにおける双方向的クロスモダリティ特徴伝播と分離・集約ゲート
要約

RGB-D画像の意味的セグメンテーションにおいて、深度情報はRGB表現に対する幾何学的補完情報を提供する有用な手がかりであることが実証されている。既存の大多数の研究では、深度測定値が正確であり、RGBピクセルと良好に整合していると仮定し、異なるモダリティ間の特徴融合問題として扱うことで、より高精度な特徴表現を得、より正確なセグメンテーションを実現しようとしている。しかし、実際の深度データは一般的にノイズを含んでおり、ネットワークの深さが増すにつれてこのノイズが精度を悪化させる可能性があるため、このようなアプローチは十分な結果をもたらさない場合がある。本論文では、RGB特徴応答を効果的に再調整するとともに、複数段階にわたり正確な深度情報を抽出・抽出し、再調整された両モダリティ表現を交互に集約する、統一的かつ効率的なクロスモダリティガイドエンコーダーを提案する。本アーキテクチャの鍵となるのは、クロスモダリティ集約の前に両表現を共同でフィルタリングおよび再調整する「分離と集約を併用したゲーティング(Separation-and-Aggregation Gating)」という新しい演算である。さらに、双方向的かつ多段階の伝搬戦略(Bi-direction Multi-step Propagation)を導入することで、両モダリティ間での情報伝搬と融合を促進するとともに、長距離伝搬プロセスにおいてもそれぞれのモダリティ固有の特徴を保持する。また、本エンコーダーは従来のエンコーダ・デコーダ構造に容易に組み込むことができ、RGB-D意味的セグメンテーション性能を向上させることが可能である。実験結果から、本モデルは屋内および屋外の難易度の高い複数のデータセットにおいて、従来の最先端手法を一貫して上回ることを示した。本研究のコードは、https://charlescxk.github.io/ にて公開されている。

RGB-Dセマンティックセグメンテーションにおける双方向的クロスモダリティ特徴伝播と分離・集約ゲート | 最新論文 | HyperAI超神経