
要約
人物再識別は、重複しないカメラ間で同一人物を識別する問題である。近年、この分野において顕著な進展が見られたものの、同一人物の外見の変化や、類似した外見を持つ他の人物の存在により、依然として困難な課題が残っている。既存の一部の研究では、正例(positive sample)の特徴量と負例(negative sample)の特徴量を分離することで問題を解決しようとした。しかし、現在のモデルの性能は、学習に使用されるサンプルの特性や統計的性質に大きく依存しており、その制限が課題となっている。そこで本研究では、ランダムに選択されたサンプルから非混合(disentangled)な特徴埋め込みを学習する新たなフレームワーク「サンプリング独立型ロバスト特徴表現ネットワーク(Sampling Independent Robust Feature Representation Network, SirNet)」を提案する。本手法では、サンプル選択に依存しない最大差分損失(sampling independent maximum discrepancy loss)を厳密に設計し、同一人物のサンプルをクラスタとしてモデル化する。その結果、学習された特徴量を用いて追加のハードネガティブ例やハードポジティブ例を生成可能となり、他の人物とより明確に区別できる表現が得られる。大規模なベンチマークデータセットを用いた広範な実験により、本モデルが従来の最先端モデルよりも優れた性能を発揮することが確認された。