
要約
教師なし動画人物再識別(reID)手法は通常、グローバルレベルの特徴量に依存している。一方、多くの教師ありreID手法ではローカルレベルの特徴量を用いて顕著な性能向上を達成している。しかし、教師なし手法にローカルレベルの特徴量を適用することは、性能の不安定性を引き起こす可能性がある。本稿では、教師なし動画reIDにおける性能の安定性を向上させるため、部分モデルと教師なし学習を統合する汎用的な枠組みを提案する。この枠組みにおいて、グローバルレベルの特徴量を等分割してローカルレベルの特徴量に分割する。ローカルレベル特徴量の教師なし学習における潜在的な利点を探索するために、ローカル意識モジュールを導入する。一方で、ローカルレベル特徴量の欠点を補うため、グローバル意識モジュールを提案する。これらの二つのモジュールから得られる特徴量を統合し、入力画像に対して堅牢な特徴表現を構築する。この特徴表現は、ローカルレベル特徴量の利点を享受しつつ、その欠点を回避している。本研究では、PRID2011、iLIDS-VID、DukeMTMC-VideoReIDの3つのベンチマーク上で包括的な実験を実施し、提案手法が最先端の性能を達成することを実証した。さらに、広範なアブレーションスタディにより、提案枠組みおよびローカル意識モジュール、グローバル意識モジュールの有効性と堅牢性が確認された。実装コードおよび生成された特徴量は、https://github.com/deropty/uPMnet にて公開されている。