
要約
本論文は、可視-熱赤外線クロスモダリティ人物再識別(VT Re-ID)タスクに焦点を当てています。このタスクの目的は、昼間の可視モダリティと夜間の熱赤外線モダリティの人物画像をマッチングすることです。クロスモダリティの乖離、特にVT Re-IDにおける最大の課題に対処するために、通常二ストリームネットワークが採用され、多様なモダリティの人物特徴を学習します。本論文では、二ストリームネットワークが共有すべきパラメータ数について探求します。これは既存の文献でまだ十分に調査されていない問題です。ResNet50モデルを適切に分割して、モダリティ固有の特徴抽出ネットワークとモダリティ共有の特徴埋め込みネットワークを構築することで、実験的に二ストリームネットワークのパラメータ共有がVT Re-IDに及ぼす影響を示しています。さらに、部位レベルでの人物特徴学習フレームワークにおいて、伝統的なトリプレット損失の厳しい制約を緩和するため、アンカーと他のすべてのサンプルとの比較ではなく、アンカーセンターと他のすべてのセンターとの比較を行う異種センターベーストリプレット損失を提案します。非常に単純な手法により、提案された方法はVT Re-ID性能を大幅に向上させることができます。2つのデータセットでの実験結果は、提案した方法が既存の最先端手法よりも大幅に優れていることを明確に示しており、特にRegDBデータセットでは優れた性能(rank1/mAP/mINP 91.05%/83.28%/68.84%)を達成しています。これにより、単純かつ効果的な戦略を持つ新しい基準となる可能性があります。