2ヶ月前
空間的に時間的に効率的な非局所注意ネットワークを用いたビデオベースの人物再識別
Chih-Ting Liu; Chih-Wei Wu; Yu-Chiang Frank Wang; Shao-Yi Chien

要約
ビデオベースの人物再識別(Re-ID)は、非重複カメラ間で歩行者のビデオシーケンスを照合することを目指しています。これは、空間的および時間的情報をビデオの特徴表現に埋め込む方法に関する実践的かつ困難な課題です。既存の大多数の手法は、画像単位の特徴量を集約し、ニューラルネットワーク内で注意機構を設計することでビデオ特性を学習しますが、これらの手法は高次元特徴量レベルでのフレーム間の相関関係のみを探求しています。本研究では、中間特徴量と高次元特徴量を非局所的な注意操作で洗練することを目指し、2つの貢献を行います。(i) 非局所的なビデオ注意ネットワーク(Non-local Video Attention Network: NVAN)を提案し、複数の特徴量レベルでビデオ特性を表現に組み込むことを目指します。(ii) さらに、歩行者ビデオに見られる空間的および時間的冗長性を探求することで計算複雑度を削減する、空間的にも時間的にも効率的な非局所的なビデオ注意ネットワーク(Spatially and Temporally Efficient Non-local Video Attention Network: STE-NVAN)を導入します。広範な実験により、我々のNVANはMARSデータセットにおいて1位精度で既存の最先端手法よりも3.8%優れており、STE-NVANが既存手法と比較して著しく優れた計算負荷であることが確認されました。