
要約
深層学習は画像レベルのタスク(例えば分類)を革新したが、対応関係(correspondence)などパッチレベルのタスクについては、依然として手作業で設計された特徴量(例:SIFT)に依存している。本論文では、畳み込みニューラルネットワーク(CNN)を用いて判別性の高いパッチ表現を学習し、特に(非)対応パッチのペアを用いてシメイジネットワークを訓練する手法を提案する。大量の潜在的なペアに対処するため、学習データセットの確率的サンプリングと、分類が難しいパッチに偏った積極的なマイニング戦略を組み合わせる。学習およびテストの両フェーズでL2距離を用いることで、128次元の記述子を構築し、そのユークリッド距離がパッチの類似度を反映するようにした。この記述子は、SIFTを用いるあらゆるタスクにおいて即座に置き換え可能な代替手段として利用可能である。実験により、最先端技術を上回る一貫した性能向上を示し、スケーリングや回転、透視変換、非剛性変形、照明変化に対して優れた一般化性能を発揮する。本記述子は計算効率が高く、現代のGPUに適しており、公開されている。