2ヶ月前

AVA: 空間時間的に局所化された原子的な視覚行動のビデオデータセット

Chunhui Gu; Chen Sun; David A. Ross; Carl Vondrick; Caroline Pantofaru; Yeqing Li; Sudheendra Vijayanarasimhan; George Toderici; Susanna Ricco; Rahul Sukthankar; Cordelia Schmid; Jitendra Malik
AVA: 空間時間的に局所化された原子的な視覚行動のビデオデータセット
要約

本論文では、空間的にも時間的にも局所化された原子的な視覚行動(Atomic Visual Actions: AVA)のビデオデータセットを紹介します。AVAデータセットは、430本の15分間のビデオクリップにおいて80種類の原子的な視覚行動を密集してアノテーションしており、各人物が空間と時間で局所化され、しばしば複数のラベルを持つ158万件の行動ラベルを生成しています。当データセットの主な特徴は以下の通りです:(1) 複合的な行動ではなく、原子的な視覚行動の定義;(2) 各人物に対して複数のアノテーションが可能な精密な空間時間アノテーション;(3) 15分間のビデオクリップにおけるこれらの原子的な行動に対する網羅的なアノテーション;(4) 時間的に連続するセグメント間での人物のリンク;(5) 映画を使用して多様な行動表現を集める方法。これは既存の時空間行動認識用データセットとは異なります。既存のデータセットでは、通常、短いビデオクリップ内で複合的な行動に対する疎なアノテーションが提供されています。私たちはこのデータセットを公開することを予定しています。AVAは現実的なシーンと行動の複雑さにより、行動認識に内在する困難性を明らかにします。これをベンチマークするために、現在最先端の手法に基づく新たな行動局所化手法を提案し、JHMDBおよびUCF101-24カテゴリにおいてより優れた性能を示しています。既存のデータセットで新しい最先端となる一方で、AVA全体での結果はmAPが15.6%と低く、ビデオ理解のために新規手法を開発する必要性を強調しています。

AVA: 空間時間的に局所化された原子的な視覚行動のビデオデータセット | 最新論文 | HyperAI超神経