2ヶ月前
TIPCB: テキストに基づく人物検索のための単純かつ効果的な部位ベースの畳み込み基線モデル
Yuhao Chen; Guoqing Zhang; Yujiang Lu; Zhenxing Wang; Yuhui Zheng; Ruili Wang

要約
テキストベースの人物検索は、画像検索の分野におけるサブタスクであり、与えられた文章的な説明に基づいて対象の人物画像を検索することを目指しています。2つのモダリティ間の大きな特徴量のギャップがこの課題を非常に難しくしています。既存の多くの手法は、細かいレベルでこの問題に対処するために局所アライメントを利用しようと試みています。しかし、関連するほとんどの手法は追加のモデルや複雑な学習・評価戦略を導入しており、実際のシナリオでは使いにくいという問題があります。実用的な応用を容易にするため、私たちは単純ながら効果的なエンドツーエンド学習フレームワークであるTIPCB(Text-Image Part-based Convolutional Baseline)を提案します。まず、新しい双方向局所アライメントネットワーク構造を提案し、これにより視覚的および文章的な局所表現を抽出します。ここで、画像は水平に分割され、文章は適応的にアライメントされます。次に、3つの特徴レベル(低レベル、局所レベル、全般レベル)からモダリティギャップを排除する多段階クロスモーダルマッチング戦略を提案します。広く使用されているベンチマークデータセット(CUHK-PEDES)上で広範な実験が行われ、その結果、私たちの手法がTop-1, Top-5, Top-10において最新の手法よりもそれぞれ3.69%、2.95%、2.31%優れていることが確認されました。私たちのコードはhttps://github.com/OrangeYHChen/TIPCBで公開されています。