MARS: テキストベースの人物検索における視覚的属性へのより一層の注目

テキストベースの人物検索(TBPS)は、研究コミュニティ内で大きな関心を集めている問題である。この課題は、特定の個人の1つまたは複数の画像をテキスト記述に基づいて取得することである。多様なモーダル性を持つこのタスクでは、テキストと画像データを共有潜在空間で橋渡す表現を学習する必要がある。既存のTBPSシステムは2つの主要な課題に直面している。1つ目は、テキスト記述の固有の曖昧さや不正確さにより生じるアイデンティティ間ノイズであり、視覚的属性の説明が一般的に異なる人々に関連付けられることを示している。2つ目は、ポーズや照明などの要素によって同一人物の視覚的な外見が変化するアイデンティティ内変動である。これらの課題に対処するために、本論文では新しいTBPSアーキテクチャであるMARS(Mae-Attribute-Relation-Sensitive)を提案する。MARSは、Visual Reconstruction LossとAttribute Lossという2つの重要なコンポーネントを導入することで、現行の最先端モデルを強化する。前者は、マスクされたオートエンコーダーを使用し、テキスト記述の支援のもとでランダムにマスキングされた画像パッチを再構成するように訓練される。これによりモデルはより表現力豊かな表現と潜在空間におけるテキスト-視覚関係を学習することが促進される。後者であるAttribute Lossは、形容詞-名詞チャンクとして定義される異なる種類の属性への貢献度をバランスよく調整する役割を持つ。この損失関数により、人物検索プロセスにおいて各属性が適切に考慮されることを保証できる。CUHK-PEDES, ICFG-PEDES, RSTPReid という3つの一般的に使用されているデータセットでの広範な実験結果から、性能向上が報告されており、特に平均精度(mean Average Precision: mAP)指標において現行の最先端技術に対する有意な改善が見られている。