15日前

ビデオベースの人物再識別における密集相互作用学習

Tianyu He, Xin Jin, Xu Shen, Jianqiang Huang, Zhibo Chen, Xian-Sheng Hua
ビデオベースの人物再識別における密集相互作用学習
要約

ビデオベースの人物再識別(re-ID)は、複数の動画クリップ間で同一人物を一致させるタスクを目的としています。その成功の鍵は、マルチスケールの微細な特徴を効率的に活用しつつ、それらの特徴間における構造的相互作用を適切に構築することにあります。本論文では、CNNベースとAttentionベースのアーキテクチャの長所を融合したハイブリッドフレームワークである「Dense Interaction Learning(DenseIL)」を提案します。DenseILはCNNエンコーダとDense Interaction(DI)デコーダから構成されています。CNNエンコーダは、判別力のある空間特徴を効率的に抽出する役割を担い、DIデコーダはフレーム間の空間時間的内在的相互作用を密にモデル化するように設計されています。従来の手法とは異なり、本手法ではDIデコーダが中間段階の微細なCNN特徴に密に注目させることで、各動画クリップに対してマルチグレインの空間時間的表現を自然に生成します。さらに、空間時間的入力間の位置関係を調査するために、DIデコーダに「空間時間的位置埋め込み(Spatio-TEmporal Positional Embedding, STEP-Emb)」を導入しました。実験の結果、複数の標準的なビデオベース人物再識別データセットにおいて、DenseILは一貫してかつ顕著に、既存の最先端手法を上回る性能を達成しました。

ビデオベースの人物再識別における密集相互作用学習 | 最新論文 | HyperAI超神経