
効果的な人物再識別(re-ID)モデルは、外見が似た人物を区別できるようにするための判別性(discriminative)な特徴表現を学習するとともに、適応なしに複数のデータセットに展開可能な汎化性(generalisable)な特徴を学習する必要がある。本論文では、これらの課題に対処するための新たなCNNアーキテクチャを開発する。まず、異なる空間スケールを捉えるだけでなく、複数スケールの相乗的な組み合わせを表現する「オムニスケール特徴(omni-scale features)」を学習可能な、新たなre-ID用CNNであるオムニスケールネットワーク(OSNet)を提案する。OSNetの基本構成要素は、それぞれ異なるスケールでの特徴を検出する複数の畳み込みストリームから構成される。オムニスケール特徴の学習のため、チャネルごとの重みを用いて多スケール特徴を動的に統合する統一型アグリゲーションゲートを導入している。OSNetは、因子分解畳み込み(factorised convolutions)を用いることで軽量な構造を実現している。次に、汎化性の向上を図るため、OSNetにインスタンス正規化(instance normalisation, IN)層を導入し、異なるデータセット間の差異に対応する。さらに、IN層のアーキテクチャ内での最適配置を決定するために、効率的な微分可能なアーキテクチャ探索アルゴリズムを提案している。広範な実験の結果、従来の同一データセット設定においても、既存のre-IDモデルと比べてはるかに小型であるにもかかわらず、最先端の性能を達成している。また、より挑戦的でありながら実用的な異データセット設定(cross-dataset setting)においても、ターゲットデータを一切使用せずに、最近の非教師ありドメイン適応(unsupervised domain adaptation)手法の多くを上回る結果を得た。本研究のコードおよびモデルは、\texttt{https://github.com/KaiyangZhou/deep-person-reid}にて公開されている。