2ヶ月前

Moments in Time データセット:イベント理解のための100万本の動画

Monfort, Mathew ; Andonian, Alex ; Zhou, Bolei ; Ramakrishnan, Kandan ; Bargal, Sarah Adel ; Yan, Tom ; Brown, Lisa ; Fan, Quanfu ; Gutfruend, Dan ; Vondrick, Carl ; Oliva, Aude
Moments in Time データセット:イベント理解のための100万本の動画
要約

私たちは「Moments in Time データセット」を紹介します。これは、3秒以内に展開する動的な出来事に対応する100万本の短い動画から構成される大規模な人間による注釈付きコレクションです。3秒の動画であっても、空間・音響・時間的なダイナミクスをモデル化することは多くの課題を伴います:意味のある出来事は人間だけでなく、物体、動物、および自然現象も含みます;視覚的および聴覚的なイベントは時間的に対称的であることがあり(「開く」は逆向きでは「閉じる」)、一時的または持続的であることもあります。当データセットの注釈プロセス(各動画には339クラスの中から1つの行動または活動ラベルが付けられます)について説明し、他の大規模な行動認識用ビデオデータセットと比較してその規模と多様性を分析し、さらに空間、時間、音響の3つのモダリティを個別に以及び統合的に扱ういくつかのベースラインモデルの結果を報告します。「Moments in Time データセット」は、視覚的および聴覚的モダリティにおいて広範で多様な出来事をカバーすることを目指しており、人間が日常的に処理する複雑さや抽象的な推論能力に匹敵するモデルを開発する新たな挑戦となることができます。