
要約
畳み込みニューラルネットワーク(CNN)から抽出されたマルチグレイン特徴量は、教師あり人物再識別(Re-ID)タスクにおいて強力な識別能力を示している。これをヒントに、本研究では、ラベルのないがより困難な非教師ありRe-ID問題に対処するため、純粋なTransformerネットワークからマルチグレイン特徴量を抽出する手法を検討する。そのため、改良型のビジョンTransformer(ViT)を基盤として、二本のブランチから構成されるネットワークアーキテクチャを構築した。各ブランチから出力される局所トークンは、リシェイプされ、均等に複数のストライプに分割され、部位レベルの特徴量を生成する。一方、二つのブランチのグローバルトークンは平均化され、グローバル特徴量を生成する。さらに、最先端の非教師ありRe-ID手法である「オフライン・オンライン連携カメラ認識プロキシ(O2CAP)」をベースに、グローバル特徴量および部位レベル特徴量の両方に対して、オフラインおよびオンラインの対照学習損失を定義し、非教師あり学習を実現した。3つの人物Re-IDデータセットにおける広範な実験の結果、提案手法は最先端の非教師あり手法を著しく上回り、教師あり手法との間の性能ギャップを大きく縮小した。コードは近日中に https://github.com/RikoLi/WACV23-workshop-TMGF にて公開予定である。