15日前

360度モノクロナル深度推定の向上を図るための非局所的密集予測Transformerと統合的教師あり・自己教師あり学習

Ilwi Yun, Hyuk-Jae Lee, Chae Eun Rhee
360度モノクロナル深度推定の向上を図るための非局所的密集予測Transformerと統合的教師あり・自己教師あり学習
要約

等距投影(360度)画像における真値深度の取得が困難であるため、現在の等距投影深度データの質と量は、世界中の多様なシーンを十分に表現するには不十分である。その結果、単独で教師あり学習に依存する360度深度推定手法は、満足のいく結果を生み出すことは困難である。一方、等距投影画像(EIs)に焦点を当てた自己教師学習手法が提案されているが、これらはしばしば誤ったまたは一意でない解を導き、性能の不安定さを引き起こす。本論文では、従来の研究を制限していた点を改善する360度単眼深度推定手法を提案する。第一に、重力方向に整列した動画のみを用いる自己教師学習型の360度深度学習手法を導入し、学習プロセスにおいて深度データの必要性を排除する可能性を示す。第二に、教師あり学習と自己教師学習を統合する共同学習スキームを提案する。各学習アプローチの欠点を補完することで、より高精度な深度推定を実現する。第三に、視覚変換器(Vision Transformer)がエンコードしたグローバル情報を再構成時により効果的に保持できる非局所融合ブロックを提案する。本研究で提案する手法により、Transformerを360度深度推定に適用することに成功した。知られている限り、これは以前に試みられたことがない。複数のベンチマークにおいて、本手法は従来手法を大きく上回り、最先端の性能を達成した。

360度モノクロナル深度推定の向上を図るための非局所的密集予測Transformerと統合的教師あり・自己教師あり学習 | 最新論文 | HyperAI超神経