Command Palette
Search for a command to run...
Moments in Time データセット:イベント理解のための100万本の動画
Moments in Time データセット:イベント理解のための100万本の動画
概要
本稿では、3秒間にわたって展開する動的な出来事に対応する100万本の短い動画から構成される、大規模な人間によるアノテーション付きデータセット「Moments in Time」を紹介する。3秒間の動画内で発生する行動の空間的・音響的・時間的ダイナミクスをモデル化することは、多くの課題を伴う。意味のある出来事とは、人間だけでなく、物体、動物、自然現象も含む。また、視覚的・聴覚的な出来事は時間的に対称的(「開く」は「閉じる」の逆)である場合もあり、瞬間的なものもあれば持続的なものもある。本研究では、データセットのアノテーションプロセス(各動画に対して339種類の行動・活動ラベルのうち1つを付与)を詳述し、他の大規模な行動認識用動画データセットと比較してその規模と多様性を分析する。さらに、空間的・時間的・音響的の3モダリティを個別に、および統合的に扱う複数のベースラインモデルの実験結果を報告する。空間的および音響的モダリティにおいて広範なカバレッジと多様性を備えたMoments in Timeデータセットは、人間が日常的に行っているような複雑さと抽象的推論能力にまで対応できるモデルの開発に対する新たな課題として機能する。