CroCo v2:ステレオマッチングおよびオプティカルフロー向けに改善されたクロスビュー補完事前学習

高レベルの下流タスクにおいて優れた性能を発揮するものの、自己教師付き事前学習手法は、ステレオマッチングやオプティカルフローといった高密度幾何学的視覚タスクにおいてはまだ完全に実力を発揮できていない。インスタンス識別やマスク画像モデリングといった自己教師付きの概念を幾何学的タスクに応用する研究は、現在も活発に行われている。本研究では、最近提案されたクロスビュー補完フレームワーク(cross-view completion framework)を基盤としている。これはマスク画像モデリングの一種であり、同一シーンの第二の視点を活用する点で、バイノキュラーな下流タスクに適している。しかし、このアプローチの適用はこれまで少なくとも二つの点で制限されてきた:(a)現実世界の画像ペアを収集する困難さ—実際には合成データのみが使用されてきた—および(b)従来のトランスフォーマーが、絶対位置よりも相対位置がより意味を持つ高密度下流タスクに対して一般化が不十分であること。本研究では、以下の3つの方向性での改善を検討する。第一に、大規模に適切な現実世界の画像ペアを収集する手法を提案する。第二に、相対的位置埋め込み(relative positional embeddings)を用いた実験を行い、それが視覚トランスフォーマーの性能を著しく向上させることを示す。第三に、大量のデータを活用することで可能となった、視覚トランスフォーマーに基づくクロス補完アーキテクチャのスケーリングを実現する。これらの改善を組み合わせることで、本研究では、従来のタスク特化型技術(相関ボリューム、反復推定、画像ワーピング、マルチスケール推論など)を一切用いずに、ステレオマッチングおよびオプティカルフローにおいて最先端の性能を達成することを初めて示した。これにより、汎用視覚モデルへの道が開かれた。