自動合成データと細かい適応特徴量アライメントによる複合人物検索

人物検索は注目を集めつつあります。既存の手法は主に画像のみとテキストのみの2つの検索モードに分類されます。しかし、これらの手法は利用可能な情報を十分に活用できず、多様な応用要件を満たすことが難しいという問題があります。以上の制限に対処するため、我々は新しい複合人物検索(Composed Person Retrieval: CPR)タスクを提案します。このタスクでは、視覚的な情報とテキストのクエリを組み合わせて、大規模な人物画像データベースから対象の個人を識別します。しかしながら、CPRタスクにおける最大の困難点は適切にアノテーションされたデータセットが不足していることです。そのため、まずスケーラブルな自動データ合成パイプラインを導入します。このパイプラインでは、複雑なマルチモーダルデータ生成をテキスト四重項の作成と、微調整された生成モデルを使用した同一性の一貫性のある画像合成に分解します。また、高品質で完全に合成された115万トリプレットを含むSynCPRデータセットが得られるように、マルチモーダルフィルタリング方法も設計しました。さらに、複合人物クエリの表現力を向上させるために、微細な動的アライメントとマスク特徴量推論を通じて新たなFine-grained Adaptive Feature Alignment (FAFA)フレームワークを提案します。客観的な評価のために、Image-Text Composed Person Retrieval (ITCPR)テストセットを手動でアノテーションしました。広範囲にわたる実験により、SynCPRデータセットの有効性と提案されたFAFAフレームワークが最先端の手法と比較して優れていることが示されました。すべてのコードとデータは以下のURLで提供されます。https://github.com/Delong-liu-bupt/Composed_Person_Retrieval.