
要約
個人再識別のため、既存の深層ネットワークはしばしば表現学習に焦点を当てています。しかし、転移学習なしでは、学習したモデルは固定され、様々な未見のシナリオへの対応が困難となります。本論文では、表現学習に加えて、深層特徴マップ内で直接人物画像のマッチングを定式化する方法について検討します。画像マッチングを特徴マップ内の局所対応点の探索として扱い、クエリ適応型畳み込みカーネルを動的に構築して局所的なマッチングを実現します。この方法により、マッチングプロセスと結果が解釈可能となり、未知のずれや姿勢や視点の変化などの未見シナリオに対して、表現特徴よりも一般的な適用が可能です。このアーキテクチャのエンドツーエンド訓練を容易にするために、さらにクラスメモリモジュールを構築し、各クラスの最新サンプルの特徴マップをキャッシュすることで、計量学習用の画像マッチング損失を計算します。直接的なクロスデータセット評価を通じて、提案されたクエリ適応型畳み込み(Query-Adaptive Convolution: QAConv)手法は人気のある学習手法(約10%以上のmAP向上)に対して大幅な改善を示し、多くの転移学習手法と同等の結果を得ています。また、モデルフリーで時間的共起に基づくスコア重み付け手法であるTLiftも提案され、性能がさらに向上し、クロスデータセットでの個人再識別において最先端の結果を達成しています。コードは https://github.com/ShengcaiLiao/QAConv で入手可能です。