要約
深度推定は、拡張現実(AR)をはじめとする多くの応用において重要な要素である深度マップ作成に不可欠なタスクである。しかし、AR機器およびスマートフォンで広く用いられているハードウェアは、異なる真値深度取得方法を持つ疎な深度センサーしか搭載していない。その結果、後続のARタスクにおける性能を安定して向上させるための深度推定モデルは、カメラ情報に基づく自己教師付き学習を用いてのみ信頼性高く訓練可能となる。従来の研究では、主に純粋な畳み込み型アーキテクチャに依拠した自己教師付きモデルに注目が集まっており、グローバルな空間的文脈を考慮したアプローチはほとんど行われていない。本論文では、自己教師付き単眼深度推定に視覚変換器(Vision Transformer)アーキテクチャを活用し、グローバル空間的文脈の問題を解決するためのモデルVTDepthを提案する。自己教師付き深度推定において、畳み込み型と変換器型アーキテクチャのさまざまな組み合わせを比較検証し、最も効果的な構成は変換器ベースのエンコーダと畳み込み型デコーダの組み合わせであることを示した。実験の結果、VTDepthが自己教師付き深度推定において高い効率性を発揮することを確認した。本研究で構築したモデル群は、NYUv2およびKITTIデータセットにおける自己教師付き学習の最先端性能を達成した。コードは以下のGitHubリポジトリで公開されている:https://github.com/ahbpp/VTDepth。