11日前
Twin-Net記述子:パッチベースのマッチングのためのQuad損失を用いたツインネガティブマイニング
{Yongju Cho, Muhammad Faisal, Rehan Hafiz, Mohsen Ali, Jeongil Seo, Aman Irshad}
要約
ローカルキーポイントマッチングは、コンピュータビジョンに基づくタスクにおいて重要なステップである。近年、ディープ畳み込みニューラルネットワーク(CNN)を用いたアプローチが、キーポイントマッチングの精度を向上させるために、記述子(descriptor)の生成を学習する手段として用いられている。この分野における最新の研究は、主に三つのサンプル(アンカー、ポジティブ、ネガティブ)を用いる三重ペア(triplet)ベースの損失関数(およびその変種)に依拠している。本研究では、新たな「ツインネガティブマイニング(Twin Negative Mining)」に基づくサンプリング戦略と、四重ペア(Quad)損失関数を組み合わせ、深層ニューラルネットワークパイプライン(Twin-Net)を学習させる手法を提案する。この手法により、同一位置を表す画像パッチ同士の記述子間の類似性が、同一3D位置に属さないが外観が類似するパッチ同士の記述子間の類似性よりも劣化しないように制約を課すことで、より強固な記述子の生成を実現する。このサンプリング戦略と損失関数の選定により、ネットワークの汎化能力が向上し、同一データセット上で学習された既存手法を上回る性能を発揮する。Twin-Netは128次元の記述子を出力し、類似度評価にL2距離を用いるため、SIFTなどの従来の記述子マッチングパイプラインと互換性を持つ。BrownおよびHPatchesデータセットにおける実験結果から、Twin-Netが最新の手法と比較して一貫して優れた性能を示し、特に識別力および汎化能力の面で顕著な優位性を示していることが明らかになった。