
要約
ファッション画像検索タスクは、クエリ画像からギャラリー内の関連する衣類アイテムを検索することを目的としている。従来の手法は、異なる距離ベースの損失関数の設計に注力しており、関連するペアを近づけ、関連のない画像同士を遠ざけることを目指していた。しかし、これらの手法は衣類画像の細粒度特徴(例:ネックバンド、カフなど)を無視しているという課題を抱えていた。本論文では、グローバル特徴と細粒度特徴の両方を活用する新しいファッション画像検索手法を提案する。この手法は「マルチグレインアライメント(Multi-Granular Alignment, MGA)」と呼ばれる。具体的には、詳細なパターンを捉えかつ集約するための「細粒度アグリゲーター(Fine-Granular Aggregator, FGA)」を設計し、さらに粗から細へと段階的に画像特徴をアライメントする「アテンションベーストークンアライメント(Attention-based Token Alignment, ATA)」を提案する。提案手法の有効性を検証するために、公開ファッションデータセットDeepFashionの2つのサブタスク(In-ShopおよびConsumer2Shop)において実験を実施した。実験結果から、MGAはR@1指標において、それぞれのサブタスクで最先端手法を1.8%および0.6%上回ることが明らかになった。