
要約
シーン理解において、シャドウ検出は重要かつ挑戦的なタスクである。近年の深層学習に基づく手法は有望な結果を示しているものの、シャドウ領域と非シャドウ領域の視覚的特徴が類似する曖昧なケース(本稿ではこれを「干渉(distraction)」と呼ぶ)に対しては依然として困難を抱えている。本論文では、エンド・ツー・エンドのフレームワーク内で視覚的干渉領域の意味情報を明示的に学習・統合することにより、干渉に強いシャドウ検出ネットワーク(DSDNet: Distraction-aware Shadow Detection Network)を提案する。本フレームワークの核となるのは、独自に設計された微分可能で独立した「干渉認識シャドウ(DS: Distraction-aware Shadow)モジュール」であり、偽陽性および偽陰性を明示的に予測することで、干渉に耐性を持ち、識別性の高い特徴を学習することを可能にする。提案手法の有効性を検証するため、SBU、UCF、ISTDの3つの公開シャドウ検出データセット上で広範な実験を実施した。実験結果から、本モデルが偽陽性および偽陰性の検出を効果的に抑制し、最先端の性能を達成できることを示した。