
要約
画像の意味分割において、文脈情報は極めて重要である。特に屋内シーンでは、物体のスケール変動が大きいため、空間的文脈は分割性能の向上に重要な要因となる。本稿では、構造的なアプローチにより適応的受容野を学習する新たな変分的文脈可変(Variational Context-Deformable: VCD)モジュールを提案する。従来のConvNetがすべての画素に対して固定サイズの空間的文脈を共有するのに対し、VCDモジュールは深度情報のガイドのもとで可変的な空間的文脈を学習する。深度情報は、実際の局所近傍を特定する手がかりを提供する。具体的には、マルチモーダル情報のガイドのもとで適応的ガウスカーネルを学習し、得られたガウスカーネルを標準的な畳み込みフィルタと乗算することで、畳み込み処理中に各画素に対して柔軟な空間的文脈を統合できる。本研究の主な貢献は以下の通りである:1)学習可能なガウスカーネルを活用して構造的適応的文脈を有する特徴学習を可能にする、新たなVCDモジュールの提案;2)VCDモジュールの学習に変分ベイズ確率モデルを導入し、連続性と安定性を向上させる;3)RGB-D分割においてマルチモーダル情報の利点を活かすため、視点意識型ガイドモジュールを設計。提案手法は、広く用いられている3つのデータセット上で評価され、性能向上が確認され、本手法の有効性が示された。