16日前

時系列行動検出におけるRGBストリーム十分である

Chenhao Wang, Hongxiang Cai, Yuxin Zou, Yichao Xiong
時系列行動検出におけるRGBストリーム十分である
要約

現在までの最先端時系列行動検出手法は、RGBフレームと光流(optical flow)の2ストリーム入力を用いている。確かにRGBフレームと光流を組み合わせることで性能が顕著に向上するが、光流は手動で設計された表現であり、計算負荷が非常に高く、また2ストリーム手法が光流と同時にエンドツーエンドで学習されないという点で、メソドロジカルに満足のいかない側面を持っている。本論文では、高精度な時系列行動検出において光流が不要であると主張し、画像レベルのデータ拡張(Image Level Data Augmentation, ILDA)が光流を削除した場合の性能低下を回避する鍵となると提案する。ILDAの有効性を検証するため、単一のRGBストリームに基づくシンプルかつ効率的な1段階型時系列行動検出器「DaoTAD」を設計した。実験結果から、ILDAを用いて学習したDaoTADは、既存のすべての最先端2ストリーム検出器と同等の精度を達成するとともに、従来手法と比べて著しく高速な推論速度を実現しており、GeForce GTX 1080 Ti上で驚異的な6668 fpsを達成した。コードは以下のURLから公開されている:\url{https://github.com/Media-Smart/vedatad}。

時系列行動検出におけるRGBストリーム十分である | 最新論文 | HyperAI超神経