16日前
GLPanoDepth:グローバルからローカルへのパノラマ深度推定
Jiayang Bai, Shuichang Lai, Haoyu Qin, Jie Guo, Yanwen Guo

要約
本稿では、単眼のオムニディレクショナル画像からシーンの高密度深度値を予測する学習ベースの手法を提案する。オムニディレクショナル画像は全視野角を有しており、パース画像と比較してシーンの記述をはるかに包括的に行える。しかし、現在の多数の手法が依拠している完全畳み込みネットワークは、パノラマ画像から豊かなグローバルな文脈を捉えることが困難である。この問題に加え、パノラマ画像における等距離円筒投影による歪みも課題となる。これらの課題に対処するため、我々は、長距離依存性をモデル化し、パノラマ画像から歪みのないグローバル特徴を抽出可能な、新たなトランスフォーマー基盤アーキテクチャである「キューブマップビジョントランスフォーマー(CViT)」を提案する。本研究では、CViTが各段階でグローバルな受容場(receptive field)を有し、球面信号に対して一貫性のあるグローバル予測を可能にすることを示す。また、重要な局所特徴を保持するために、パイプライン内に畳み込みベースのブランチを追加(GLPanoDepthと命名)し、複数スケールにおけるCViTからのグローバル特徴を融合する。このグローバルからローカルへ向かう戦略により、パノラマ画像内に含まれる有用なグローバルおよびローカル特徴を十分に活用でき、パノラマ深度推定において最先端の性能を達成した。