11日前
NeW CRFs:単眼深度推定のためのニューラルウィンドウ全結合CRFs
Weihao Yuan, Xiaodong Gu, Zuozhuo Dai, Siyu Zhu, Ping Tan

要約
単一画像から正確な深度を推定することは、本質的に曖昧であり、適切に定式化されていない問題であるため、困難である。近年の研究では、深度マップを直接回帰するため、ますます複雑かつ強力なネットワークが設計されてきたが、本研究ではCRF(確率的グラフィカルモデル)最適化のアプローチを採用している。計算コストが高いため、通常はグラフ全体ではなく局所的な近傍間でCRFが実行される。完全結合型CRF(FC-CRF)の潜在的な利点を活かすために、入力をウィンドウに分割し、各ウィンドウ内でFC-CRF最適化を実行することで、計算量を削減し、FC-CRFの実用化を可能にした。また、グラフ内のノード間の関係をより適切に捉えるために、マルチヘッドアテンション機構を用いてマルチヘッド潜在関数を計算し、これをネットワークに供給することで、最適化された深度マップを出力する。さらに、このニューラルウィンドウFC-CRFモジュールをデコーダとして、ビジョントランスフォーマーをエンコーダとして用いる、ボトムアップ・トップダウン構造を構築した。実験の結果、KITTIおよびNYUv2データセットにおいて、従来手法と比較して、すべての評価指標において顕著な性能向上が確認された。さらに、提案手法はパノラマ画像にも直接適用可能であり、MatterPort3Dデータセットにおいて、従来のすべてのパノラマ深度推定手法を上回る性能を発揮した。プロジェクトページ:https://weihaosky.github.io/newcrfs