9日前

長距離動画理解のための時系列集約表現

Fadime Sener, Dipika Singhania, Angela Yao
長距離動画理解のための時系列集約表現
要約

長期動画における将来予測は、現在および過去の観測から推論を行うことが求められる。本研究では、時間的範囲、スケーラビリティ、意味的抽象度の3つの課題に対して、柔軟な多粒度時系列集約フレームワークを提案する。最大プーリングやアテンションといったシンプルな手法を用いることで、次の行動予測および密集型予測の両面で最先端の性能を達成可能であることを示した。モデルの予測能力を検証するため、Breakfast、50Salads、EPIC-Kitchensの3つのデータセット上で実験を実施した結果、いずれにおいても最先端の結果を達成した。また、最小限の修正で本モデルは動画セグメンテーションや行動認識への拡張も可能であることが示された。

長距離動画理解のための時系列集約表現 | 最新論文 | HyperAI超神経