GIM: インターネット動画から一般化可能な画像マッチャーを学習する

画像マッチングは、コンピュータビジョンの基本的な問題です。学習ベースの手法は既存のベンチマークで最先端の性能を達成していますが、実世界の画像に対しては汎化性能が低いという課題があります。これらの手法は通常、異なるシーンタイプごとに個別のモデルを訓練する必要があり、事前にシーンタイプが不明な場合に実用的ではありません。この問題の一因は、既存のデータ構築パイプラインのスケーラビリティが限られていることであり、これが標準的な画像マッチングデータセットの多様性を制限しています。この課題に対処するために、私たちはGIM(Generative Image Matching)と呼ばれる自己訓練フレームワークを提案します。GIMは、インターネット上の動画という豊富で多様なデータソースを使用して、任意の画像マッチングアーキテクチャに基づく単一の汎化可能なモデルを学習します。アーキテクチャが与えられると、GIMはまず標準的なドメイン固有のデータセットでそれを訓練し、その後新しい動画の近接フレームに補完的なマッチング手法を組み合わせて稠密なラベルを作成します。これらのラベルは堅牢なフィッティングによってフィルタリングされ、さらに遠隔フレームへの伝播によって強化されます。最終的なモデルは、強力な拡張を施した伝播されたデータで訓練されます。また、ZEB(Zero-Shot Evaluation Benchmark)と呼ばれる初めてのゼロショット評価ベンチマークも提案します。ZEBは異なるドメインからのデータを混在させることで、各手法のクロスドメイン汎化性能を徹底的に評価できます。GIMを適用することで、3つの最先端画像マッチングアーキテクチャにおいて一貫してゼロショット性能が向上します;50時間分のYouTube動画を使用することで、相対的なゼロショット性能は8.4%から18.1%向上しました。GIMはさらに極端なクロスドメインデータへの汎化も可能にし、投影された3Dポイントクラウドの鳥瞰図(BEV: Bird Eye View)画像のようなデータにも対応できます(図1(c)参照)。より重要なのは、私たちの一貫したゼロショットモデルがそれぞれのドメイン特有の下流タスクでの評価においてドメイン固有の基準モデルを超えることです。本研究に関するビデオプレゼンテーションは以下のURLでご覧いただけます:https://www.youtube.com/watch?v=FU_MJLD8LeY。