16日前

ShapeConv:屋内RGB-Dセマンティックセグメンテーション向けの形状感知型畳み込み層

Jinming Cao, Hanchao Leng, Dani Lischinski, Danny Cohen-Or, Changhe Tu, Yangyan Li
ShapeConv:屋内RGB-Dセマンティックセグメンテーション向けの形状感知型畳み込み層
要約

近年、RGB-Dセマンティックセグメンテーションはますます注目を集めている。既存の手法は、主にRGB画像と深度特徴量の両者を処理するために同質な畳み込み演算子を用いているが、これら2つの特徴量の本質的な相違を無視している。実際、RGB値は投影画像空間における光度的外観特性を捉えているのに対し、深度特徴量は局所的な幾何形状だけでなく、その形状が大域的な文脈における位置(ベース)をも記述している。ベースと比較して、形状はより本質的であり、意味情報との関連性が強く、したがってセグメンテーション精度にとってより重要である。この観察に基づき、我々は深度特徴量を処理するための「形状認識畳み込み層(ShapeConv)」を提案する。ShapeConvでは、まず深度特徴量を「形状成分」と「ベース成分」に分解し、それぞれに対して学習可能な重みを独立して導入した後、再重み付けされた両成分の組み合わせに対して畳み込み演算を適用する。ShapeConvはモデルに依存せず、ほとんどのCNNに容易に統合可能であり、セマンティックセグメンテーションのための従来の畳み込み層を置き換えることができる。本手法は、NYU-Dv2(-13、-40)、SUN RGB-D、SIDの3つの困難な屋内RGB-Dセマンティックセグメンテーションベンチマークにおいて、5つの代表的なアーキテクチャを用いて広範な実験を行い、その有効性を実証した。さらに、ShapeConvを用いたCNNの性能向上は、推論フェーズにおける計算量およびメモリ使用量の増加を伴わない。その理由は、ShapeConvにおける形状成分とベース成分の重要度を調整する学習済み重みが推論フェーズでは定数となるため、次の畳み込み層に統合可能であり、結果として従来の畳み込み層を用いたネットワークと同一の構造を持つネットワークが実現できるからである。

ShapeConv:屋内RGB-Dセマンティックセグメンテーション向けの形状感知型畳み込み層 | 最新論文 | HyperAI超神経