
要約
単眼画像からのカメラローカライゼーションは長年にわたり重要な課題であったが、動的環境におけるロバスト性はまだ十分に解決されていない。従来の幾何学的手法と比較して、最近のCNNベースの手法(例:PoseNet)は照明条件や視点の変化に対して高い信頼性を示しているが、以下の課題を抱えている。第一に、前景の移動物体が明示的に処理されておらず、動的環境下では性能が著しく低下し、安定性に欠ける。第二に、各画像に対する出力が不確実性を定量化しない点推定にとどまっている。本論文では、既存のCNNベースのポーズ回帰器に一般に適用可能なフレームワークを提案する。本手法の鍵となるアイデアは、事前知識を用いたドロップアウトモジュールと自己注意(self-attention)モジュールの組み合わせであり、学習および推論の両フェーズにおいてCNNが前景物体を無視するように導く。さらに、ドロップアウトモジュールによりポーズ回帰器は複数の仮説を出力可能となり、ポーズ推定の不確実性を定量的に評価し、その後の不確実性を考慮したポーズグラフ最適化に活用することで、さらなるロバスト性の向上を実現する。実験結果として、RobotCarデータセットにおいて平均精度9.98m/3.63degを達成し、最先端手法を62.97%/47.08%の性能向上で上回った。本研究の実装コードは、https://github.com/zju3dv/RVL-dynamic にて公開されている。