11日前

Occlusion-Net:グラフネットワークを用いた2D/3Dオクルージョンキーポイントの局所化

{ Srinivasa G. Narasimhan, Minh Vo, N. Dinesh Reddy}
Occlusion-Net:グラフネットワークを用いた2D/3Dオクルージョンキーポイントの局所化
要約

本稿では、物体の遮蔽されたキーポイントの2次元および3次元位置を、主に自己教師付きのアプローチで予測するためのフレームワーク「Occlusion-Net」を提案する。本手法では、マスクRCNNなど既存の検出器を入力として用い、可視キーポイントのアノテーションのみで訓練されたものを利用する。これ以外に、本研究で用いる監視信号は一切存在しない。その後、グラフエンコーダネットワークが不可視のエッジを明示的に分類し、グラフデコーダネットワークが初期検出器からの推定結果をもとに遮蔽されたキーポイントの位置を補正する。本研究の中心となるのは、他の視点で遮蔽されていないキーポイントの位置に対して間接的な自己教師信号を提供する「三焦点テンソル損失(trifocal tensor loss)」である。得られた2次元キーポイントは、自己教師付き再投影損失を用いて3次元形状およびカメラポーズを推定する3次元グラフネットワークへと入力される。テスト段階では、多様な重度の遮蔽状況下においても、単一のビューからキーポイントを正確に局所化することに成功した。本手法の有効性を、合成CADデータおよび多くの混雑した都市交差点で撮影された大型画像データセットを用いて検証した。また、興味深い副次的成果として、幾何学的な三焦点テンソル損失によって得られた不可視キーポイントのラベルと人間によるラベルの精度を比較した。

Occlusion-Net:グラフネットワークを用いた2D/3Dオクルージョンキーポイントの局所化 | 最新論文 | HyperAI超神経