16日前

SemAttNet:アテンションベースの意味論的認識を活用した深さ補完への道筋

Danish Nazir, Marcus Liwicki, Didier Stricker, Muhammad Zeshan Afzal
SemAttNet:アテンションベースの意味論的認識を活用した深さ補完への道筋
要約

深度補完は、疎な深度マップとRGB画像から密な深度マップを復元するタスクである。近年のアプローチでは、色画像をガイド画像として用いて無効なピクセルにおける深度を回復することに注目が集まっている。しかし、色画像のみではシーンの必要な意味的理解を十分に提供できない。その結果、RGB画像内の急激な照明変化(例:影)に起因する問題が深度補完タスクに影響を及ぼす。本論文では、色ガイド、意味ガイド、深度ガイドの3本のブランチから構成される新規なバックボーンを提案する。具体的には、色ガイドブランチは疎な深度マップとRGB画像を入力として受け取り、シーンの色特徴(例:物体境界)を含む色深度を生成する。この色ガイドブランチによる予測された密な深度マップに加え、意味画像と疎な深度マップを入力として意味ガイドブランチに渡し、意味深度を推定する。深度ガイドブランチは、疎な深度、色深度、意味深度を入力として受け取り、最終的な密な深度マップを生成する。生成された色深度、意味深度、ガイド深度は適応的に融合され、本提案の3本ブランチバックボーンの出力を得る。さらに、すべての3本のブランチ間の特徴融合に、意味認識型マルチモーダル注意に基づく融合ブロック(SAMMAFB)を導入する。また、本提案の3本ブランチバックボーンによって生成された密な深度マップの精度向上のために、CSPN++とアトロス畳み込み(Atrous convolutions)を組み合わせた手法を用いる。広範な実験により、本モデルは提出時点でのKITTI深度補完ベンチマークにおいて最先端の性能を達成することが示された。

SemAttNet:アテンションベースの意味論的認識を活用した深さ補完への道筋 | 最新論文 | HyperAI超神経