15日前

ビデオベースの人物再識別における空間的・時系列的メモリネットワーク

Chanho Eom, Geon Lee, Junghyup Lee, Bumsub Ham

要約

ビデオベースの人物再識別（reID）は、複数のカメラ間でクエリ人物と同一のアイデンティティを持つ人物のビデオを検索することを目的としています。人物のビデオには、空間的な雑音（背景の混雑など）や時間的な雑音（フレーム間での部分的隠蔽など）が存在し、これらは画像ベースの人物再識別と比較して、より高い課題を伴います。本研究では、空間的な雑音が特定の位置に一貫して出現すること、また時間的な雑音には特定のパターン（例えば、部分的隠蔽が最初の数フレームに集中するなど）が見られることに着目しました。これらのパターンは、どのフレームに注目すべきか（すなわち、時間的注意をどのように配置すべきか）を予測するための有益な手がかりを提供します。これを踏まえ、本研究では新しい「空間的・時間的メモリネットワーク（Spatial and Temporal Memory Networks: STMN）」を提案します。空間的メモリは、複数のフレームにわたって頻繁に出現する空間的雑音の特徴を記憶し、時間的メモリは人物ビデオにおける典型的な時間的パターンに最適化された注意機構（attention）を保存します。これらのメモリを活用することで、フレームレベルの人物表現を精緻化し、さらに精緻化されたフレームレベル特徴を統合してシーケンスレベルの人物表現を構築します。これにより、人物ビデオにおける空間的・時間的雑音を効果的に扱うことが可能になります。さらに、メモリに特定の項目にのみ注目する傾向を抑えるため、メモリスプレッド損失（memory spread loss）を導入しました。MARS、DukeMTMC-VideoReID、LS-VIDといった標準ベンチマークにおける実験結果から、本手法の有効性が確認されました。