11日前

GCNDepth:グラフ畳み込みネットワークに基づく自己教師付きモノクロ深度推定

Armin Masoumian, Hatem A. Rashwan, Saddam Abdulwahab, Julian Cristiano, Domenec Puig
GCNDepth:グラフ畳み込みネットワークに基づく自己教師付きモノクロ深度推定
要約

深度推定は、環境認識における精度の高いセンシングを実現するための3D再構成において困難な課題である。本研究では、従来の手法と比較して、深度マップに関する定量化および定性的な理解を向上させる一連の改良を導入した新たな解決策を提示する。近年、畳み込みニューラルネットワーク(CNN)は、単眼動画から深度マップを推定する能力において顕著な成果を示している。しかし、従来のCNNはトポロジカル構造をサポートせず、サイズと重みが固定された規則的な画像領域でのみ処理が可能である。一方、グラフ畳み込みネットワーク(GCN)は非ユークリッドデータにおける畳み込み処理を可能とし、トポロジカル構造内における不規則な画像領域にも適用可能である。このため、本研究では物体の幾何学的外観および分布を維持するため、自己教師付き深度推定モデルとしてGCNを活用することを目的とする。本モデルは2つの並列なオートエンコーダネットワークから構成される。1つ目のネットワークはResNet-50を基盤とし、入力画像から特徴量を抽出するとともに、マルチスケールGCNを用いて深度マップを推定する。2つ目のネットワークはResNet-18を用いて、連続する2フレーム間のエゴモーションベクトル(すなわち3Dポーズ)を推定する。得られた3Dポーズと深度マップを統合して、ターゲット画像を再構成する。深度推定の不正確さを抑制しつつ、物体の不連続性を保持するため、光度誤差、投影誤差、滑らかさに関する複数の損失関数を組み合わせて使用する。特に、本手法は公開データセットであるKITTIおよびMake3Dにおいて、89%という高い推定精度を達成し、最先端の手法と比較して学習可能なパラメータ数を40%削減するという、競争力があり有望な結果を示した。本研究のソースコードは、https://github.com/ArminMasoumian/GCNDepth.git にて公開されている。

GCNDepth:グラフ畳み込みネットワークに基づく自己教師付きモノクロ深度推定 | 最新論文 | HyperAI超神経