11日前

SPIdepth:自己教師付き単眼深度推定におけるポーズ情報の強化

Mykola Lavreniuk
SPIdepth:自己教師付き単眼深度推定におけるポーズ情報の強化
要約

自己教師あり単眼深度推定は、自動運転やロボティクス分野における応用において注目を集めている。近年の手法は、自己クエリ層(Self Query Layer; SQL)などの技術を活用して動きから深度を推定する点で進展を遂げているが、姿勢情報の強化可能性を無視しがちである。本論文では、深度推定の精度向上を目的として、姿勢ネットワークの強化に重点を置いた新規アプローチであるSPIdepthを提案する。SQLの基盤に立ち、SPIdepthは細粒度のシーン構造を捉えるために姿勢情報の重要性を強調している。姿勢ネットワークの能力を向上させることで、SPIdepthはシーン理解および深度推定において顕著な進歩を達成した。KITTI、Cityscapes、Make3Dといったベンチマークデータセットにおける実験結果から、SPIdepthは従来手法を大きく上回る最先端の性能を示している。特に、自己教師ありKITTIベンチマークにおいて最優位を記録した。KITTIでは、AbsRel(0.029)、SqRel(0.069)、RMSE(1.394)のいずれも最低値を達成し、新たな最先端の結果を樹立した。Cityscapesでは、動きマスクを使用せずにSQLdepthと比較して、AbsRelで21.7%、SqRelで36.8%、RMSEで16.5%の改善を実現した。Make3Dではゼロショット設定下でも他のすべてのモデルを上回った。特に注目すべきは、SPIdepthが推論時に単一画像のみを用いるにもかかわらず、動画シーケンスを用いる手法をも凌駕している点であり、実世界アプリケーションにおける効率性と有効性を示している。本研究は、自己教師あり単眼深度推定の分野において重要な飛躍を示しており、実世界におけるシーン理解の進展に向けた姿勢情報の強化の重要性を強調している。コードおよび事前学習済みモデルは、https://github.com/Lavreniuk/SPIdepth にて公開されている。

SPIdepth:自己教師付き単眼深度推定におけるポーズ情報の強化 | 最新論文 | HyperAI超神経