17日前

ターゲット誘導型コンポーザド画像検索

Haokun Wen, Xian Zhang, Xuemeng Song, Yinwei Wei, Liqiang Nie
ターゲット誘導型コンポーザド画像検索
要約

構成画像検索(Composed Image Retrieval: CIR)は、参照画像とその対応する修正テキストからなるマルチモーダルクエリに対して、目的の画像を検索する新しく柔軟な画像検索パラダイムである。既存の研究は顕著な成果を上げているものの、マルチモーダルクエリの構成を改善するための参照画像と修正テキスト間の矛盾関係のモデリング、および、候補画像が与えられたクエリに対して異なるレベルの一致度を示す可能性があることを踏まえた適応的マッチング度のモデリングを無視している。これらの2つの制約を克服するため、本研究では、ターゲットをガイドする構成画像検索ネットワーク(Target-Guided Composed Image Retrieval network: TG-CIR)を提案する。具体的には、TG-CIRは、対照的言語-画像事前学習モデル(CLIP)をバックボーンとして用い、参照画像/ターゲット画像および修正テキストの統一されたグローバルおよびローカル属性特徴を抽出する。この際、属性特徴間の独立性を促進するため、直交正則化を導入する。次に、ターゲット-クエリ関係をガイドするマルチモーダルクエリ構成モジュールを設計し、ターゲットフリーな学生構成ブランチとターゲットに基づく教師構成ブランチから構成される。ここで、教師ブランチにターゲット-クエリ関係を注入することで、学生ブランチにおける矛盾関係のモデリングをガイドする。最後に、従来のバッチベース分類損失に加えて、バッチベースのターゲット類似度誘導型マッチング度正則化を導入し、メトリック学習プロセスを促進する。3つのベンチマークデータセットにおける広範な実験により、本研究で提案する手法の優位性が実証された。

ターゲット誘導型コンポーザド画像検索 | 最新論文 | HyperAI超神経