要約
人物再識別(re-ID)は、異なるカメラや視点から得られた人物画像のギャラリーから、同一人物の画像を検索することを目的としている。しかし、現在の大多数の人物再識別手法は、外見に変化が少ない短期間設定(短時間にわたる同一人物の画像比較)を仮定している。一方、長期的な設定では、衣装や小物の変化により視覚的特徴に大きな変動が生じることが多く、このためタスクはより困難となる。したがって、時間的に変動する特徴に依存しない、個体固有の特徴を学習することが、堅牢な長期的人物再識別に不可欠である。この課題に対応するため、本研究では属性バイアスを低減するためのビジョントランスフォーマー(AD-ViT)を提案する。本手法は、人物インスタンスに対して属性ラベルを生成し、そのラベルを用いて勾配反転(gradient reversal)によりモデルが個体特徴に注目するように導くことで、直接的な監督信号を提供する。2つの長期的再識別データセット(LTCCおよびNKUP)における実験結果から、提案手法が現在の最先端手法を一貫して上回ることを確認した。