19日前
空間情報を活用した適応型コンテキスト感知ネットワークによる効率的なRGB-Dセマンティックセグメンテーション
Yang Zhang, Chenyun Xiong, Junjie Liu, Xuhui Ye, Guodong Sun

要約
モバイルロボットにおいて、効率的なRGB-Dセマンティックセグメンテーションは、環境情報の解析および認識において重要な役割を果たしており、近年注目を集めている。従来の研究によれば、深度情報は物体やシーンに対する対応する幾何学的関係を提供するが、実際の深度データはノイズを含むことが一般的である。このため、セグメンテーション精度および計算効率に悪影響を及ぼさないよう、マルチモーダル間の相関関係と補完的特徴を効果的に活用するための効率的なフレームワークの設計が不可欠である。本論文では、計算パラメータを削減しつつアルゴリズムのロバスト性を保証する、軽量なエンコーダ・デコーダネットワークを提案する。チャネルおよび空間融合アテンションモジュールを用いることで、本ネットワークは多レベルなRGB-D特徴を効果的に捉えることができる。さらに、高レベルの文脈情報を十分に取得するために、グローバルにガイドされたローカルアフィニティコンテキストモジュールを導入した。デコーダでは、短距離および長距離の情報を組み合わせつつ、冗長な計算を最小限に抑えた軽量なリジッドユニットを採用している。NYUv2、SUN RGB-D、Cityscapesの各データセットにおける実験結果から、本手法は最先端の手法と比較して、セグメンテーション精度、推論時間、パラメータ数の間でより優れたトレードオフを達成していることが示された。ソースコードは https://github.com/MVME-HBUT/SGACNet にて公開される。