
要約
ビデオ監視において、歩行者検索(いわゆる人物再識別)は重要なタスクである。このタスクの目的は、重複しないカメラ間から対象の歩行者を検索することにある。近年、トランスフォーマーに基づくモデルはこのタスクにおいて顕著な進展を遂げている。しかし、これらのモデルは細粒度の部分情報(part-informed information)を無視するという課題を抱えている。本論文では、この問題を解決するために、多方向かつ多スケールなピラミッド構造を備えたトランスフォーマー(PiT: Pyramid in Transformer)を提案する。トランスフォーマーに基づくアーキテクチャでは、各歩行者画像が多数のパッチに分割され、それらのパッチがトランスフォーマー層に投入されて画像の特徴表現を取得する。細粒度情報の探索を目的として、本論文ではこれらのパッチに対して縦方向および横方向の分割を適用し、異なる方向の人体部位を生成する。これにより、より細かいレベルの情報を得ることができる。さらに、多スケールの特徴表現を融合するため、グローバルレベルの情報と複数の異なるスケールからのローカルレベルの情報を含むピラミッド構造を提案する。同一ビデオ内のすべての歩行者画像の特徴ピラミッドを統合することで、最終的な多方向・多スケール特徴表現が得られる。MARSおよびiLIDS-VIDという2つの困難なビデオベースのベンチマークにおける実験結果から、提案するPiTが最先端の性能を達成することが示された。広範なアブレーションスタディにより、提案するピラミッド構造の優位性が確認された。コードは https://git.openi.org.cn/zangxh/PiT.git にて公開されている。