2ヶ月前

単眼ビデオからの非監督スケール一貫性深度と自我運動学習

Bian, Jia-Wang ; Li, Zhichao ; Wang, Naiyan ; Zhan, Huangying ; Shen, Chunhua ; Cheng, Ming-Ming ; Reid, Ian
単眼ビデオからの非監督スケール一貫性深度と自我運動学習
要約

最近の研究では、CNN(畳み込みニューラルネットワーク)を用いた深度推定器と自我運動推定器が、ラベルの付いていない単眼動画を使用して学習可能であることが示されています。しかし、これらの性能は、幾何学的な画像再構築における静止シーンの仮定に違反する未特定の動体によって制限されます。さらに重要な問題として、適切な制約が欠けているため、ネットワークは異なるサンプルに対してスケールの一貫性がない結果を出力します。つまり、フレームごとのスケールの曖昧さにより、自我運動ネットワークは長いビデオシーケンス全体で完全なカメラ軌道を提供できません。本論文では、これらの課題に対処するために、スケール一貫性のある予測を行うための幾何学的一貫性損失と、動体や遮蔽物を扱うために自己発見されたマスクを提案しています。我々のフレームワークは最近の多タスク学習を利用していないため、非常にシンプルかつ効率的です。包括的な評価結果から、我々の深度推定器はKITTIデータセットにおいて最先端の性能を達成していることが示されました。さらに、我々の自我運動ネットワークが長いビデオシーケンスに対してグローバルにスケール一貫性のあるカメラ軌道を予測できることを確認しました。その結果得られた視覚odomety(視覚航法)精度は、ステレオ動画を使用して訓練された最近のモデルと競合するレベルです。我々が知る限りでは、これはラベルの付いていない単眼動画を使用して訓練された深層学習ネットワークが長いビデオシーケンス全体でグローバルにスケール一貫性のあるカメラ軌道を予測できるという初めての研究です。

単眼ビデオからの非監督スケール一貫性深度と自我運動学習 | 最新論文 | HyperAI超神経