15日前

ビデオベースの人物再識別におけるピラミッド空間時系列集約

{Dong Wang, Hu Lu, Xia Geng, Shang Gao, Pingping Zhang, Yingquan Wang}
ビデオベースの人物再識別におけるピラミッド空間時系列集約
要約

ビデオベースの人物再識別は、複数の重複しないカメラ間で同一人物の動画クリップを関連付けることを目的としています。空間時系列表現は、フレーム間においてより豊かで補完的な情報を提供し、遮蔽が発生した場合にターゲット人物を正確に識別するために不可欠な役割を果たします。本論文では、フレームレベルの特徴を段階的に集約し、階層的な時系列特徴を統合して最終的な動画レベルの表現を生成する新しい「ピラミッド空間時系列集約(Pyramid Spatial-Temporal Aggregation: PSTA)」フレームワークを提案する。これにより、短期間および長期間の時系列情報が異なる階層によって効果的に活用可能になります。さらに、PSTAの集約能力を強化するため、空間時系列集約モジュール(Spatial-Temporal Aggregation Module: STAM)を提案します。STAMは、空間的参照注意(Spatial Reference Attention: SRA)と時系列的参照注意(Temporal Reference Attention: TRA)という2つの新規なアテンションブロックで構成されています。SRAは1フレーム内の空間的相関関係を探索し、各位置に対する注目度(アテンション重み)を決定します。一方、TRAは隣接フレーム間の相関を追加的に考慮することで、SRAを拡張し、時系列的一貫性情報を十分に活用することで、干渉を引き起こす特徴を抑制し、識別力を高める特徴を強化します。多数の困難なベンチマークにおける広範な実験により、提案するPSTAの有効性が確認され、本モデルの完全な構成は、MARSベンチマークで91.5%、DukeMTMC-VIDベンチマークで98.3%のRank-1精度を達成しました。