2ヶ月前

テキストベースの人物検索のための意味対応特徴表現の学習

Li, Shiping ; Cao, Min ; Zhang, Min
テキストベースの人物検索のための意味対応特徴表現の学習
要約

テキストベースの人物検索は、特定の歩行者の画像をテキスト記述によって検索することを目指しています。このタスクの主要な課題は、モダリティ間ギャップを解消し、モダリティ間での特徴量の整合性を達成することです。本論文では、テキストベースの人物検索に向けた意味論的に整合した埋め込み手法を提案します。この手法では、自動的に意味論的に整合した視覚的特徴量と文章的特徴量を学習することで、モダリティ間での特徴量の整合性が達成されます。まず、2つのトランスフォーマーに基づくバックボーンを導入し、画像と文章の堅牢な特徴表現をエンコードします。次に、意味論的に整合した特徴量集約ネットワークを設計し、クロスモダリティ部分アライメント損失と多様性損失によって制約されたマルチヘッドアテンションモジュールを使用して、同じ意味を持つ特徴量を選択および集約し、部位認識可能な特徴量を作成します。CUHK-PEDESおよびFlickr30Kデータセットにおける実験結果は、当手法が最先端の性能を達成していることを示しています。