
要約
動画における物体認識は、自動運転の周辺認識、監視タスク、ウェアラブルデバイス、IoTネットワークなど、多様な応用において重要な課題である。動画データを用いた物体認識は、静止画像に比べてブラー、遮蔽、稀な物体の姿勢といった要因により、より高い難易度を伴う。現在の最先端技術では、計算コストの高い専用動画検出器、または標準的な静止画像検出器と高速な後処理アルゴリズムの組み合わせが用いられている。本研究では、複数フレーム間の検出結果間に学習ベースの類似度評価を導入することで、従来の後処理手法の限界を克服する新たな後処理パイプラインを提案する。本手法は、特に高速移動する物体に対して、最先端の専用動画検出器の性能を向上させるとともに、低リソース要件を実現している。さらに、YOLOのような効率的な静止画像検出器に適用することで、はるかに計算コストの高い検出器と同等の性能を達成することが可能である。