
要約
現在のステレオマッチング技術は、探索領域の制限、遮蔽領域、および膨大なデータ量といった課題に直面している。一方、単一画像からの深度推定はこれらの課題から解放されており、単眼的特徴(monocular cues)を抽出することで良好な結果を得ることができるが、ステレオ的関係が欠如しているため、特に動的な環境や複雑なシーンにおいては単独での推定信頼性が低下する。これらの課題を両方の状況において解決するために、我々は視神経交叉(optic chiasm)を模倣した自己教師付きステレオ深度推定手法を提案する。本手法では、ゲート付き位置的クロスアテンション(Gated Positional Cross-Attention, GPCA)層を備えた視覚変換器(Vision Transformer, ViT)を設計し、複数視点間での特徴に敏感なパターン検索を可能にするとともに、自己アテンションによって集約された広範な文脈情報を保持する。その後、取得したパターンペアを用いて、単一視点からの単眼的特徴をブレンド層により条件付きで補正する。このクロスオーバー構造は人間視覚系における視神経交叉の構造と生物学的に類似しており、その名を「ChiTransformer」と命名した。実験の結果、本アーキテクチャは最先端の自己教師付きステレオ手法に対して11%の顕著な性能向上を達成し、直線的(rectilinear)な画像だけでなく、非直線的(例えば魚眼レンズによる)画像にも適用可能であることが示された。