13日前
エンドツーエンド学習可能な幾何学的ビジョン:PnP最適化の逆伝播による実現
Bo Chen, Alvaro Parra, Jiewei Cao, Nan Li, Tat-Jun Chin

要約
深層ネットワークは大量のデータからパターンを学習する点で優れています。一方、多くの幾何学的ビジョンタスクは最適化問題として定式化されます。深層学習と幾何学的ビジョンをスムーズに統合するためには、学習と幾何最適化をエンドツーエンドで連携させることが不可欠です。この目的に向けて、本研究では、Perspective-n-Points(PnP)ソルバーを介して勾配を逆伝播させ、ニューラルネットワークのパラメータ更新をガイドする新しいネットワークモジュール「BPnP」を提案します。陰関数微分(implicit differentiation)に基づき、自己完結型のPnPソルバーの勾配を正確かつ効率的に導出できることを示しました。これは、最適化ブロックが微分可能関数であるかのように振る舞うことを意味します。BPnPは、訓練データセットからカメラの内部パラメータ、外部パラメータ(姿勢)および3D構造を同時に学習可能な深層モデルに組み込むことで検証されています。さらに、特徴量ベースのヒートマップ損失と2D-3D再投影誤差を組み合わせることで、より高い精度を達成するエンドツーエンド学習可能なオブジェクト姿勢推定パイプラインを開発しました。本手法は他の最適化問題にも拡張可能であるため、原理的な枠組みのもとで学習可能な幾何学的ビジョンを実現する道を開くものと言えます。BPnPのPyTorch実装は、http://github.com/BoChenYS/BPnP にて公開されています。