16日前

単眼深度推定のための構造注意メモリネットワーク

Jing Zhu, Yunxiao Shi, Mengwei Ren, Yi Fang, Kuo-Chin Lien, Junli Gu
単眼深度推定のための構造注意メモリネットワーク
要約

単眼深度推定は、与えられた単一のRGB画像から対応する深度マップを予測することを目的とする困難なタスクである。近年、深層学習モデルがRGB画像と深度領域間の深層特徴の整合性を学習することで、画像から深度を推定する手法が提案されている。本論文では、ドメイン適応において共通する構造的規則性(例えば、繰り返し構造パターン、平面面、対称性など)に着目し、単眼深度推定におけるドメイン特徴の効果的な転送を実現するため、新たなアプローチである「構造注意型メモリネットワーク(Structure-Attentioned Memory Network)」を提案する。これにより、RGB画像領域と深度領域間の構造特有の情報を学習・記憶する新しい「構造指向型メモリ(Structure-Oriented Memory, SOM)」モジュールを導入する。具体的には、SOMモジュールにおいて、構造意識的な画像-深度残差パターンを記憶するフィルタ群を学習する「記憶可能フィルタバンク(Memorable Bank of Filters, MBF)」ユニットと、画像特徴のクエリをもとにMBF内のフィルタ選択を制御する「注意誘導型コントローラ(Attention Guided Controller, AGC)」ユニットを構築する。クエリとして与えられた画像特徴に基づき、学習済みのSOMモジュールは、画像と深度間の最適な構造的乖離を実現するように、カスタマイズされた最適なフィルタを適応的に選択し、クロスドメイン特徴転送を実現する。要するに、本研究では、構造特有のドメイン適応課題に焦点を当て、単眼深度推定を対象としたエンドツーエンドのマルチスケール記憶型ネットワークを提案する。実験の結果、提案モデルは、挑戦的なKITTIおよびNYU Depth V2ベンチマークにおいて、従来の教師あり単眼深度推定手法と比較して優れた性能を示した。

単眼深度推定のための構造注意メモリネットワーク | 最新論文 | HyperAI超神経