6ヶ月前

概要

人間が描くスケッチは、視覚的対象の空間的トポロジーを捉えるとともに、微細な外見的特徴も表現できる点で特異性を有している。細粒度スケッチベース画像検索（FG-SBIR）は、このようなスケッチの細粒度特性を活用して、写真画像のインスタンスレベルでの検索を実現する重要な技術である。しかし、人間のスケッチはしばしば高度に抽象的かつ象徴的であり、候補となる写真との間で顕著な不一致が生じるため、微細な視覚的特徴の一致が困難となる。従来のFG-SBIR手法は、深層クロスドメイン表現学習によって粗い全体的なマッチングに注力しているが、細粒度の特徴およびその空間的文脈を明示的に捉えることに失敗している。本論文では、既存モデルと大きく異なる以下の3点を特徴とする新しい深層FG-SBIRモデルを提案する：（1）視覚的特徴の空間的位置に敏感な注目モジュールを導入することで、空間的意識を持つ構造を実現；（2）ショートカット接続による融合ブロックを用いて、粗いと細かい意味情報の両方を統合；（3）新たな高次可学習エネルギー関数（HOLEF）に基づく損失関数を導入し、両ドメイン間で抽出された特徴の不一致に対して堅牢な特徴相関モデリングを可能にする。広範な実験により、提案モデルが最先端技術を顕著に上回ることが確認された。

ソースPDF