17日前
テキストベースの人物検索を 위한階層的Gumbel Attention Network
{Tao Mei, Zheng-Jun Zha, Jiawei Liu, Wu Liu, Kecheng Zheng}
要約
テキストベースの人物検索は、ギャラリー画像から与えられたテキスト記述に最も適合する人物画像を検索することを目的としている。従来の手法では、画像の領域と文における対応する語との間の意味的対応関係を推定するためにソフトアテンション機構が用いられてきた。しかし、これらの手法は関連のないマルチモーダル特徴を統合してしまう可能性があり、一致の冗長性問題を引き起こすことがある。本研究では、Gumbel top-k再パラメータ化アルゴリズムを用いた階層的Gumbelアテンションネットワークを提案し、テキストベースの人物検索を実現する。具体的には、画像とテキストから意味的に関連性の高い強力な領域や語句/フレーズを適応的に選択することで、精密な対応と類似度計算を実現する。このハード選択戦略により、関連性の高いマルチモーダル特徴のみを統合し、一致の冗長性問題を緩和することが可能となる。同時に、ハードアテンション機構の離散性問題に対処するために、低分散かつバイアスのない勾配推定器としてのGumbel top-k再パラメータ化アルゴリズムをエンドツーエンドの枠組みで設計した。さらに、語レベル、フレーズレベル、文レベルという3つの異なる粒度から階層的で適応的なマッチング戦略をモデルに導入し、細粒度なマッチングを実現している。広範な実験結果により、最先端の性能が確認された。CUHK-PEDESデータセットにおけるテキストから画像への検索タスクでは、既存の最良手法と比較して、Rank-1スコアで8.24%、mAPで7.6%の相対的向上を達成し、画像からテキストへの検索タスクでは、Rank-1で5.58%、mAPで6.3%の相対的向上を示した。