H-Net:エピポーラ幾何を活用した教師なしアテンションベースのステレオ深度推定

ステレオ画像ペアからの深度推定は、コンピュータビジョン分野において最も広く研究されている応用の一つとなっており、これまでの多くの手法は完全教師あり学習(fully supervised learning)に依存していた。しかし、正確でスケーラブルな真値データ(ground truth)を取得することが困難であるため、完全教師あり手法の学習は課題を抱えている。こうした問題に対応するため、自己教師あり(self-supervised)手法が注目を集めつつある。本論文では、エピポーラ幾何学(epipolar geometry)を活用してステレオマッチングを精密化する、非教師あり(unsupervised)ステレオ深度推定のための深層学習フレームワーク「H-Net」を提案する。本研究では、初めてシメイズ(Siamese)オートエンコーダ構造を深度推定に適用し、補正済みステレオ画像間の相互情報(mutual information)を効果的に抽出することを可能にした。また、エピポーラ制約を強制するために、相互エピポーラアテンション機構(mutual epipolar attention mechanism)を設計した。この機構は、入力ステレオペア間の相互情報学習において、同じエピポーラ線上に位置する特徴の対応関係に特に注目を向ける。さらに、提案するアテンション機構にセマンティック情報を組み込むことで、ステレオ対応関係の精度を向上させた。具体的には、最適輸送アルゴリズム(optimal transport algorithm)を用いて、両カメラに共通して視認されない領域におけるアテンションを抑制し、外れ値を除去した。KITTI2015およびCityscapesにおける広範な実験の結果、本手法は最先端の非教師ありステレオ深度推定手法を上回り、完全教師あり手法との差を著しく縮めることに成功した。