要約
平面ホモグラフィ推定とは、二枚の画像間におけるピクセルの全単射線形写像を計算する問題を指す。この問題に対して、従来の畳み込みニューラルネットワーク(CNN)を用いた研究は、全結合層に続く全結合層を用いて四隅の位置を回帰するという単純なアプローチを採用している。しかし、このベクトル表現は、四隅に明確な空間的順序が存在することを無視しており、その空間構造を損なう。さらに、ホモグラフィを計算するには四点が最小限の必要条件であるため、このようなアプローチは摂動に対して脆弱である。本論文では、概念的にシンプルでありながら、信頼性と汎用性に優れたホモグラフィ推定フレームワークを提案する。従来の手法とは異なり、本研究ではこの問題を「視点場(Perspective Field, PF)」として定式化する。PFは、ホモグラフィの本質であるピクセル間の全単射写像をモデル化するものであり、提案する完全畳み込み残差ネットワーク、PFNetによって自然に学習される。これにより、各ピクセルの空間的順序が保持される。さらに、PFから各ピクセルの変位を密度的に取得可能であるため、密な対応関係を活用したロバストなホモグラフィ推定が実現できる。実験の結果、本手法は従来の対応関係ベースのアプローチおよび最先端のCNN手法と比較して、精度において優れた性能を発揮するとともに、ネットワークサイズも小型化されていることが示された。また、本研究で提案する新たなパラメータ化手法は汎用性が高く、任意の完全畳み込みネットワーク(FCN)アーキテクチャによって実装可能である。