
要約
深層学習が多くのコンピュータビジョンタスクの最良の手法において重要な要素となりつつある一方で、インスタンスレベルの画像検索における類似の改善をもたらすことに成功していません。本稿では、深層学習方法が画像検索で期待ほど良い結果を出せていない理由は三つであると主張します:i) 噪音のある訓練データ、ii) 適切でない深層アーキテクチャ、iii) 最適でない訓練手順です。これらの問題すべてに対処します。まず、大規模だがノイジーなランドマークデータセットを活用し、深層検索に適した訓練セットを生成する自動クリーニング手法を開発しました。次に、最近のR-MAC記述子に基づき、それが深層かつ微分可能なアーキテクチャとして解釈できることを示し、その改良点を提示します。最後に、3つのストリームを組み合わせたトリプレット損失を使用する双子ネットワーク(Siamese architecture)でこのネットワークを訓練します。訓練プロセスの終了時には、提案されたアーキテクチャは単一の前向き伝播によって全体的な画像表現を生成し、画像検索に適しています。広範な実験により、我々の手法が以前の検索手法や高コストな局所記述子インデックス化および空間検証に基づく最先端手法よりも大幅に優れていることが示されました。Oxford 5k、Paris 6k、Holidaysデータセットでの平均精度はそれぞれ94.7%、96.6%、94.8%でした。また、我々の表現は製品量子化(product quantization)を使用して大幅に圧縮でき、精度への影響は最小限です。追加資料については、www.xrce.xerox.com/Deep-Image-Retrievalをご覧ください。