
要約
深度情報は、RGB-Dシーン解析タスクにおいて進展をもたらす幾何学的情報を提供する。近年のいくつかの研究では、画素間の3次元近傍関係を扱うために、深度軸に沿って受容野(receptive field)を構築するRGB-D畳み込み演算子が提案されている。しかし、これらの手法はハイパーパラメータによって深度方向の受容野を事前に定義しており、パラメータ選定に依存するという課題を抱えている。本論文では、深度軸に沿った受容野を学習可能な新しい演算子「可変性2.5次元畳み込み(malleable 2.5D convolution)」を提案する。可変性2.5D畳み込みは、1つまたは複数の2D畳み込みカーネルを有する。本手法は、各画素をその相対的な深度差に基づいて、いずれかのカーネルに割り当てるか、または一切割り当てないかを決定する。この割り当てプロセスは微分可能な形で定式化されており、勾配降下法によって学習可能である。提案する演算子は標準的な2D特徴マップ上で動作し、事前に学習されたCNNにシームレスに統合可能である。本手法の有効性および汎化能力を、挑戦的なRGB-DセマンティックセグメンテーションデータセットであるNYUDv2およびCityscapesの両方で広範な実験を通じて検証した。