17日前
RGB-Dセマンティックセグメンテーションのためのピクセル差分畳み込みネットワーク
Jun Yang, Lizhi Bai, Yaoru Sun, Chunqi Tian, Maoyu Mao, Guorun Wang

要約
RGB-Dセマンティックセグメンテーションは、深度データの利用により畳み込みニューラルネットワーク(CNN)によって進展が可能となる。2Dの外観情報だけでは物体の識別が難しい場合でも、深度データにおける局所的なピクセル差および幾何学的パターンを活用することで、特定の状況下では物体を良好に分離できる。しかしながら、固定グリッド構造を持つCNNは、細部にわたる微細な情報を捉える能力に欠けており、結果として正確なピクセル単位のセマンティックセグメンテーションを実現できないという限界がある。この問題を解決するために、本研究では深度データに対して局所範囲における強度および勾配情報の集約により、詳細な内在的パターンを捉えるためのピクセル差畳み込みネットワーク(PDCNet)を提案する。具体的には、PDCNetは深度ブランチとRGBブランチの2つの構成要素から構成される。深度ブランチでは、局所的かつ詳細な幾何学的情報を、強度と勾配の両方の情報を集約することで捉えるため、ピクセル差畳み込み(PDC)を提案する。一方、RGBブランチでは、PDCを拡張し、グローバルなコンテキストを活用できるようにするため、軽量なカスケード大カーネル(CLK)を導入し、これをCPDCと呼ぶ。その結果、情報伝搬プロセス中に両モーダルデータの局所的およびグローバルなピクセル差が、PDCNet内でスムーズに統合される。NYUDv2およびSUN RGB-Dという2つの挑戦的なベンチマークデータセットにおける実験結果から、本手法PDCNetがセマンティックセグメンテーションタスクにおいて最先端の性能を達成することが示された。