3ヶ月前
時系列文脈を強化した重度遮蔽歩行者検出
{ Junsong Yuan, Yuan Li, Qian Zhang, Ming Yang, Chunluan Zhou, Jialian Wu}

要約
最先端の歩行者検出器は、遮蔽のない歩行者に対して高い性能を発揮しているが、重度の遮蔽状況では依然として課題に直面している。これまで多くの研究が歩行者遮蔽の問題軽減に取り組んできたが、その多くは静止画像に依拠している。本論文では、動画における歩行者の局所的時間的文脈に着目し、重度の遮蔽に強い歩行者検出を実現することを目的として、チューブ特徴集約ネットワーク(Tube Feature Aggregation Network, TFAN)を提案する。具体的には、現在のフレームにおける遮蔽された歩行者に対して、時間軸に沿ってその関連する対応するフレームを反復的に探索し、チューブを構築する。その後、適応的な重みに基づいてそのチューブ内の特徴を集約し、遮蔽された歩行者の特徴表現を強化する。さらに、チューブのずれ(tube drifting)や重度の遮蔽に対応するため、時間的に判別力のある埋め込みモジュール(Temporally Discriminative Embedding Module, TDEM)と部位ベースの関係モジュール(Part-based Relation Module, PRM)をそれぞれ設計した。3つのデータセット(Caltech、NightOwls、KAIST)における広範な実験の結果、本手法が重度の遮蔽下における歩行者検出において顕著な有効性を示した。さらに、CaltechおよびNightOwlsデータセットにおいて、既存の最先端手法を上回る性能を達成した。