動画ベースの人物再識別における時空間表現の因子分解

ビデオベースの人物再識別(re-ID)分野において、近年の進展にもかかわらず、現状の最先端技術は、人物間の外見の類似性、隠蔽(occlusion)、フレームの不整合といった、実世界で一般的に見られる課題に依然として直面している。これらの問題を軽減するために、本研究では、既存の多数の3D畳み込みニューラルネットワークアーキテクチャと併用可能な柔軟な新しい計算ユニット「空間時間的表現因子分解(Spatio-Temporal Representation Factorization: STRF)」を提案する。STRFの主な革新点は、判別的な時間的特徴と空間的特徴を明示的に学習するためのパスウェイを設け、それぞれのコンポーネントをさらに因子分解することで、人物固有の外見情報と運動情報の補完的な特徴を捉える点にある。具体的には、時間的因子分解は、時間的にほとんど変化しない静的特徴(例:衣装の色)を学習するブランチと、時間とともに変化する動的特徴(例:歩行パターン)を学習するブランチの2本のパスを有する。さらに、空間的因子分解も、グローバルな(粗い領域)およびローカルな(細かい領域)外見特徴を学習する2本のブランチを備えており、特に隠蔽や空間的不整合が生じる状況においてローカル特徴が有効となる。これらの2つの因子分解操作を統合することで、パラメータ量が少なく、任意の2つの3D畳み込み層の間に挿入可能なモジュール型アーキテクチャを持つSTRFユニットが実現され、エンドツーエンド学習フレームワークを構築可能となる。実験的に、STRFはさまざまな既存のベースラインアーキテクチャの性能を向上させることを示し、3つの標準的な人物再識別ベンチマークにおいて、標準的な評価プロトコルを用いて新たな最先端性能を達成したことを確認した。