16日前
マルチショット時系列イベントローカライゼーション:ベンチマーク
Xiaolong Liu, Yao Hu, Song Bai, Fei Ding, Xiang Bai, Philip H.S. Torr

要約
現在の時系列イベントまたはアクションの局所化に関する研究は、通常、単一のカメラで撮影されたアクションに焦点を当てている。しかし、実際の環境において広範なイベントやアクションは、異なる位置に設置された複数のカメラによって複数のショットに分けて記録されることがある。本論文では、このような状況に対応する新たな挑戦的なタスクとして「マルチショット時系列イベント局所化(multi-shot temporal event localization)」を提案し、それに伴い大規模なデータセット「MUlti-Shot EventS(MUSES)」を構築した。MUSESには、合計716時間の動画にわたり31,477件のイベントインスタンスが含まれている。MUSESの特徴は、ショットカットの頻発性にあり、インスタンスあたり平均19ショット、動画あたり平均176ショットを有しており、これによりインスタンス内での大きな変動が生じる。我々の包括的な評価結果から、従来の時系列アクション局所化の最先端手法でも、IoU=0.5におけるmAPは13.1%にとどまることが明らかになった。また、補足的な貢献として、インスタンス内変動に対処するシンプルなベースライン手法を提示し、MUSESではIoU=0.5でmAP 18.9%、THUMOS14では56.9%を達成した。本研究分野の促進を目的として、データセットおよびプロジェクトコードを https://songbai.site/muses/ にて公開している。