
要約
単一の2D画像における人物検出は、近年大きく進歩しました。しかし、この進歩の多くがマルチカメラ・マルチピープル追跡アルゴリズムに浸透しておらず、シーンが非常に混雑するとその性能は依然として著しく低下します。本研究では、新しいアーキテクチャを提案します。これは畳み込みニューラルネットワーク(Convolutional Neural Nets)と条件付き隨機場(Conditional Random Fields)を組み合わせて、そのような曖昧性を明示的にモデル化するものです。その重要な要素の一つは、潜在的な被覆(occlusions)をモデル化し、多くの人が存在する場合でも当方針の堅牢性を確保する高次CRF項です。我々のモデルはエンドツーエンドで学習され、困難なシーンにおいていくつかの最先端アルゴリズムを上回る性能を示すことを確認しています。