17日前
空中・地上カメラネットワーク下における人物再識別向け視点非依存型Transformer
Quan Zhang, Lei Wang, Vishal M. Patel, Xiaohua Xie, Jianhuang Lai

要約
従来の人物再識別手法は、地上カメラ同士の一致(例:地上−地上マッチング)といった均質なカメラ環境において、外見に基づく身元関連付けにおいて顕著な進展を遂げている。しかし、より実用的なシナリオとして、異種カメラ間における空中−地上人物再識別(AGPReID)は、ほとんど注目されていない。AGPReIDにおける最大の課題である、視点の劇的な違いによる識別的身元表現の破壊を緩和するために、シンプルかつ効果的なフレームワークとして、視点分離トランスフォーマー(View-Decoupled Transformer, VDT)を提案する。VDTでは、視点依存特徴と視点非依存特徴を分離するための2つの主要な構成要素が設計されている。すなわち、階層的減算分離(hierarchical subtractive separation)と直交損失(orthogonal loss)である。前者はVDT内部でこれらの特徴を分離する役割を果たし、後者はこれらの特徴が互いに独立であることを制約する。さらに、本研究では、5台/8台の空中/地上カメラ、5,000人の人物、合計108,563枚の画像から構成される大規模なAGPReIDデータセット「CARGO」を提供する。2つのデータセットにおける実験結果から、VDTがAGPReIDにおいて実現可能かつ有効な解決策であることが示され、CARGOデータセットではmAP/Rank1が従来手法をそれぞれ最大5.0%/2.7%上回り、AG-ReIDデータセットでは3.7%/5.2%上回った。計算量のオーダーは従来手法と同等のままである。本研究のプロジェクトは、https://github.com/LinlyAC/VDT-AGPReID にて公開されている。