16日前

HiMODE:ハイブリッド単眼全方位深度推定モデル

Masum Shah Junayed, Arezoo Sadeghzadeh, Md Baharul Islam, Lai-Kuan Wong, Tarkan Aydin
HiMODE:ハイブリッド単眼全方位深度推定モデル
要約

単眼全方位深度推定は、360°の周囲環境を感知する応用が広いため、近年注目を集めている。本分野における従来の手法は、小さな物体の細部を正確に復元できないことや、真値深度マップ取得過程でのデータ損失という課題を抱えている。本論文では、ハイブリッドCNN+Transformer(エンコーダデコーダ)アーキテクチャに基づく新しい単眼全方位深度推定モデル、HiMODEを提案する。このモデルは、歪みの低減と計算コストの削減を効率的に実現しつつ、性能の低下を伴わずに設計されたモジュールを採用している。まず、HNetブロックを基盤とする特徴ピラミッドネットワークを設計し、画像の端縁付近から高解像度の特徴を抽出する。さらに、Transformerのエンコーダとデコーダにそれぞれ自己注意(self-attention)層および相互注意(cross-attention)層、空間的・時系列的パッチを導入することで、性能をさらに向上させた。また、空間的残差ブロックを用いることで、パラメータ数を削減した。入力画像から各バックボーンブロックで抽出された深層特徴と、Transformerエンコーダデコーダによって予測された原始深度マップを、コンテキスト調整層を介して共同処理することで、真値深度マップを上回る視覚的品質を持つ出力深度マップを生成可能である。包括的な消去実験により、各モジュールの重要性が明確に示された。スタンフォード3D、Matterport3D、SunCGの3つのデータセットを用いた広範な実験結果から、HiMODEが単眼全方位深度推定において最先端の性能を達成できることを確認した。

HiMODE:ハイブリッド単眼全方位深度推定モデル | 最新論文 | HyperAI超神経