17日前

リランキングTransformerを用いたインスタンスレベルの画像検索

Fuwen Tan, Jiangbo Yuan, Vicente Ordonez
リランキングTransformerを用いたインスタンスレベルの画像検索
要約

インスタンスレベルの画像検索とは、クエリ画像に含まれるオブジェクトと一致する画像を大規模なデータベース内で検索するタスクである。このタスクに対処するため、従来のシステムは通常、グローバルな画像記述子を用いた検索ステップと、その後にローカル特徴に基づく幾何学的検証などの操作を活用してドメイン固有の細分化または再順序付けを行うステップに依存している。本研究では、教師ありのアプローチにより、ローカル特徴とグローバル特徴を統合して一致画像を再順序付ける汎用モデルとして「再順序付け変換器(Reranking Transformers: RRTs)」を提案する。これにより、比較的コストの高い幾何学的検証プロセスを置き換えることが可能となる。RRTsは軽量であり、並列処理が容易であるため、上位の一致結果群に対して単一の順伝播(forward-pass)で再順序付けを実行できる。本研究では、Revisited OxfordおよびParisデータセットおよびGoogle Landmarks v2データセットを用いて広範な実験を行い、従来の再順序付け手法と比較して優れた性能を示した一方で、ローカル特徴記述子の使用数を大幅に削減している。さらに、既存の手法とは異なり、RRTsは特徴抽出器と同時に最適化可能であることを示した。これにより、下流タスクに特化した特徴表現が得られ、さらなる精度向上が可能となる。本研究で開発したコードおよび学習済みモデルは、https://github.com/uvavision/RerankingTransformer にて公開されている。

リランキングTransformerを用いたインスタンスレベルの画像検索 | 最新論文 | HyperAI超神経