17日前

画像検索のためのトークンベース表現学習

Hui Wu, Min Wang, Wengang Zhou, Yang Hu, Houqiang Li
画像検索のためのトークンベース表現学習
要約

画像検索において、データ駆動型のアプローチによって学習された深層的な局所特徴は、検索性能の向上に有効であることが実証されている。大規模な画像データベース上で効率的な検索を実現するため、一部の手法では大きなコードブックを用いて深層局所特徴を量子化し、集約されたマッチングカーネルで画像を照合するアプローチが採用されている。しかし、これらの手法は大規模なメモリ消費を伴うため、計算複雑度が高く、特徴学習と集約を同時に実行する能力に制限がある。本研究では、コンパクトなグローバル表現を生成しつつ、局所的なマッチング能力を維持するため、局所特徴表現と集約を統合的に学習するフレームワークを提案する。本フレームワークでは、まずCNNを用いて深層的な局所特徴を抽出する。次に、トークナイザモジュールを設計し、これらの特徴を少数の視覚トークンに集約する。各トークンは特定の視覚パターンに対応しており、これにより背景ノイズの除去と、より識別力の高い領域の捉え込みが可能となる。その後、自己注意(self-attention)とクロス注意(cross-attention)を用いたリファインメントブロックを導入し、視覚トークンの表現を強化する。最後に、異なる視覚トークンを連結することで、コンパクトなグローバル表現を生成する。本フレームワークは画像レベルのラベルを用いてエンドツーエンドで訓練される。広範な実験により本手法の有効性を評価した結果、Revisited OxfordおよびParisデータセットにおいて、最先端の手法を上回る性能を達成した。