
要約
再識別(ReID)に関する研究は、多様な応用事例とゼロショット学習の特性から、コンピュータビジョン分野で注目を集めつつある。本論文では、計算効率に優れ、細分化された再識別を実現するモデルFGReIDを提案する。FGReIDは、画像と動画の両方のReIDタスクを統合的に扱う一方で、学習パラメータ数を最小限に抑える最初のモデルの一つである。本モデルは、動画ベースの事前学習と空間特徴注目(spatial feature attention)を活用することで、動画および画像の両方のReIDタスクにおいて性能を向上させている。FGReIDは、MARS、iLIDS-VID、PRID-2011の動画人物ReIDベンチマークにおいて、最先端(SOTA)の性能を達成した。時間方向のプーリングを排除することで得られる画像ReIDモデルは、CUHK01およびMarket1501の画像人物ReIDベンチマークにおいてもSOTAを上回る性能を示した。さらに、車両ReIDデータセットVeRiにおいても、ほぼSOTAの性能を達成しており、モデルの汎化能力の高さを示している。また、ReIDタスクにおけるモデル性能に影響を与える主要な要素を分析する消去実験(ablation study)も実施した。最後に、ReID技術の潜在的な誤用を含む、倫理的課題についても議論している。本研究のコードは、公開されている(https://github.com/ppriyank/Fine-grained-ReIdentification)。