
要約
複数のカメラビュー間で歩行者を対応させる問題、いわゆる人間再識別(human re-identification)は、視覚監視において多くの応用を持つ難問であり、研究が進められています。深層学習の再興に伴い、人間再識別のための端から端までの深いシアム型畳み込みニューラルネットワーク(CNN)アーキテクチャがいくつか提案されています。これらのネットワークの目的は、類似したペア(つまり同一の身元)の画像を互いに近づけ、非類似なペアの画像を互いに遠ざけることです。しかし、現在のネットワークは、他の画像との組み合わせに関係なく各画像に対して固定された表現を抽出し、他の画像との比較は最終段階でしか行われません。このような設定では、ポジティブなペアとハードネガティブなペアを区別するために重要な細かい局所パターンを抽出できないリスクがあります。本論文では、中間レベルの特徴量を画像ペア間で比較することにより、そのような細かい共通する局所パターンを選択的に強調するゲーティング関数を提案します。これにより、同じ画像でも他の画像との組み合わせによって柔軟な表現が生成されます。CUHK03、Market-1501およびVIPeRデータセットを使用して実験を行い、基準となるシアム型CNNアーキテクチャと比較して性能向上が示されました。