
要約
大規模画像検索に適した注意機構を用いた局所特徴記述子を提案し、これをDELF(DEep Local Feature)と呼びます。この新しい特徴量は、ランドマーク画像データセット上の画像レベルの注釈のみで訓練された畳み込みニューラルネットワークに基づいています。画像検索に役立つ意味的に有用な局所特徴量を特定するために、キーポイント選択のための注意機構も提案します。この機構は記述子と共通のネットワーク層を大部分で共有しています。本フレームワークは、他のキーポイント検出器や記述子の代わりとして画像検索に使用でき、より正確な特徴量マッチングと幾何学的検証が可能になります。当システムは信頼性のある信頼度スコアを生成し、偽陽性を排除します---特にデータベースに正しいマッチがないようなクエリに対して堅牢性があります。提案された記述子の評価のために、背景の雑多さ、部分的な遮蔽、複数のランドマーク、変動するスケールでの物体など、データベースとクエリ双方において課題がある新しい大規模データセットであるGoogle-Landmarksデータセットを導入しました。我々はDELFが大規模設定において現行最良の全局所および局所記述子を大幅に上回ることを示しています。コードとデータセットはプロジェクトウェブページで入手できます: https://github.com/tensorflow/models/tree/master/research/delf 。