2ヶ月前
人再識別のための深層視覚表現の改善: グローバルおよびローカルな画像言語関連性によるアプローチ
Chen, Dapeng ; Li, Hongsheng ; Liu, Xihui ; Shen, Yantao ; Yuan, Zejian ; Wang, Xiaogang

要約
人物再識別は、異なる人物のアイデンティティを区別するために判別的な視覚的特徴を学習する重要なタスクです。多様な補助情報が利用されており、視覚的特徴の学習を改善しています。本論文では、効果的な視覚的特徴を学習するために自然言語の説明を追加の訓練監督として活用することを提案します。他の補助情報と比較して、言語はよりコンパクトで意味的な視覚的側面から特定の人物を描写できるため、ピクセルレベルの画像データに対して補完的な役割を果たします。当手法は、全体的な説明による監督によってより優れたグローバルな視覚的特徴を学習するとともに、局所的な視覚的および言語的特徴間の意味的一貫性も強制します。これは、グローバルおよび局所的な画像-言語関連性を構築することで達成されます。グローバルな画像-言語関連性はアイデンティティラベルに基づいて確立され、局所的な関連性は画像領域と名詞句との間の暗黙の対応に基づいています。広範な実験により、当手法が言語を訓練監督として利用することの有効性が示され、テスト時に任意の補助情報を使用せずに最先端の性能を達成し、画像-言語関連性に対する他の結合埋め込み手法よりも優れた性能を示すことが確認されました。